【AUKG-037】ニューハーフベスト 4時間精确狙击Llama 3.1？Mistral AI开源Large 2，123B忘形Llama 405B

发布日期：2024-08-26 11:08 点击次数：87

【AUKG-037】ニューハーフベスト 4時間精确狙击Llama 3.1？Mistral AI开源Large 2，123B忘形Llama 405B

来源：机器之心Pro【AUKG-037】ニューハーフベスト 4時間

机器之心报说念

机器之机杼剪部

AI 竞赛正往常所未有的速率加速，继 Meta 昨天推出其新的开源Llama 3.1模子之后，法国 AI 初创公司 Mistral AI 也加入了竞争。

刚刚，Mistral AI 文告其旗舰开源模子的下一代居品：Mistral Large 2，该模子领有 1230 亿个参数，在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新顶端模子不相高下。

紧随 Llama 3.1 405B 之后，Mistral Large 2 的发布闪开源大模子的赛说念一下子侵略起来，而这一模子的特色是 ——「富有大」。

具体来说，天然 Mistral Large 2 参数目低于 Llama 3.1 的 4050 亿，但两者性能接近。况兼在多个基准测试中与 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 忘形。

本年 2 月，Mistral AI 推出了开端的 Large 模子，其高下文窗口包含 32,000 个 token，新版模子在此基础上构建，具有更大的 128,000 个高下文窗口（约莫荒谬于一册 300 页的书）—— 与 OpenAI 的 GPT-4o 和 GPT-4o mini 以及 Meta 的 Llama 3.1 相匹配。

当前，Mistral Large 2 守旧数十种谈话，包括法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、汉文、日语和韩语，以及 80 多种编程谈话，包括 Python、Java、C、C++、JavaScript 和 Bash。

Mistral AI 指出，新模子将链接冲破本钱后果、速率和性能的界限，同期为用户提供新功能，包括高等函数调用和检索，以构建高性能的 AI 欺诈。

不外，值得着重的是，Mistral Large 2 天然是怒放的，但只限于琢磨和非交易用途。它提供了怒放的权重，允许第三方阐述我方的需求对模子进行微调。这一契约是对用户使用条目的一个蹙迫范围。关于需要自行部署 Mistral Large 2 的交易用途，必须提前取得 Mistral AI 交易许可证。

性能剖判

在多项评估观点上，Mistral Large 2 刷新了性能和行状本钱的新圭臬。荒谬是在 MMLU 上，预现实版块完好意思了 84.0% 的准确率。

代码与推理

Mistral AI 基于此前 Codestral 22B 和 Codestral Mamba 的教育，在很大一部分代码上现实了 Mistral Large 2。

Mistral Large 2 的剖判远远优于上一代的 Mistral Large【AUKG-037】ニューハーフベスト 4時間，况兼与 GPT-4o、Claude 3 Opus 和 Llama 3 405B 等顶尖模子荒谬。

Mistral AI 还干预了多数元气心灵来增强模子的推理能力，重心之一即是尽量减少模子产生「幻觉」或产生看似合理但骨子上不正确或不联系信息的倾向。这是通过微调模子来完好意思的，使其在修起时愈加严慎和横蛮，确保其提供可靠和准确的输出。

此外，在找不到科罚有筹画或莫得富有的信息来提供一个自信的谜底时，Mistral Large 2 会承认（我方答不出来）。这种瞄准确性的追求体现在了数学基准测试中模子性能的提高，下图展示了其增强的推理和科罚问题的能力：

代码生成基准上的性能准确性（统统模子都通过疏浚的评估经过进行基准测试）。

MultiPL-E 上的性能准确性（除 paper 外，统统模子都通过疏浚的评估经过进行基准测试）。

GSM8K（8-shot）和 MATH（0-shot，无 CoT）生成基准上的性能准确性（统统模子都通过疏浚的评估经过进行基准测试）。

领导服从与对皆

Mistral AI 大幅普及了 Mistral Large 2 的领导服从和对话能力。新的 Mistral Large 2 尤其擅长服从精确领导和处理长本事的多轮对话。

以下是其在 MT-Bench、Wild Bench 和 Arena Hard 基准测试中的剖判：

模子在通用对皆基准测试中的性能（统统模子均通过疏浚的评估 pipeline 进行测试）

在某些基准测试中，生成较长的回答频频会提高评分。但是，在好多交易欺诈中，纯粹至关蹙迫，这是因为纯粹的模子生成概况加速交互速率，并缩小推理本钱。

是以 Mistral AI 破耗了多数元气心灵，确保生成的内容尽可能三言两语。

下图展示了在 MT Bench 基准测试的问题上，不同模子生成的回答的平均长度：

谈话种种性

当前多数的交易化欺诈场景触及处理多谈话文档。Mistral Large 2 在多数多谈话数据上进行了现实，荒谬是在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、汉文、日语、韩语、阿拉伯语和印地语方面都剖判优异。

以下是 Mistral Large 2 在多谈话 MMLU 基准测试中的性能收尾，主若是与之前的 Mistral Large、Llama 3.1 模子以及 Cohere 的 Command R+ 的对比：

多谈话 MMLU 性能（以基础预现实模子测量）

用具使用与函数调用

Mistral Large 2 配备了增强的函数调用和检索妙技，经过现实概况纯熟地实行并行温和序函数调用，使其概况成为复杂业务欺诈枢纽的弘大引擎。

下图为 Mistral Large 2 在函数调用上与其他主流模子的准确性对比：

试用 Mistral Large 2

用户不错通过 la Plateforme 上使用 Mistral Large 2，称号为 mistral-large-2407 ，并在 le Chat 上测试。它的版块是 24.07（Mistral 对统统模子袭取的都是 YY.MM 版块编号系统），API 称号为 mistral-large-2407。

领导模子的权重已提供，托管在 HuggingFace 上。

权重归并：https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

Mistral AI 正在将 la Plateforme 上的居品整合为两个通用模子：Mistral Nemo和 Mistral Large，以及两个专科模子：Codestral 和 Embed。跟着他们冉冉淘汰 la Plateforme 上的旧模子，统统的 Apache 模子（包括 Mistral 7B、Mixtral 8x7B 和 8x22B、Codestral Mamba、Mathstral）仍然不错使用 Mistral AI 的 SDK——mistral-inference 和 mistral-finetune 进行部署和微调。

从今天启动，他们推广了 la Plateforme 上的微调功能：现在，这些功能适用于 Mistral Large、Mistral Nemo 和 Codestral。

此外，Mistral AI 与云行状提供商都有调和，Mistral Large 2 将很快登陆这些平台。Mistral AI 扩大了与 Google Cloud Platform 的调和，通过 Managed API 将 Mistral AI 的模子引入 Vertex AI。与此同期，还不错在 Amazon Bedrock、Azure AI Studio 和 IBM watsonx.ai 上找到。

参考归并：

https://mistral.ai/news/mistral-large-2407/

https://venturebeat.com/ai/mistral-shocks-with-new-open-model-mistral-large-2-taking-on-llama-3-1/

https://techcrunch.com/2024/07/24/mistral-releases-large-2-meta-openai-ai-models/【AUKG-037】ニューハーフベスト 4時間

热点资讯

相关资讯

友情链接：

Powered by 情色 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 版权所有