来源:机器之心Pro【AUKG-037】ニューハーフベスト 4時間
机器之心报说念
机器之机杼剪部
AI 竞赛正往常所未有的速率加速,继 Meta 昨天推出其新的开源Llama 3.1模子之后,法国 AI 初创公司 Mistral AI 也加入了竞争。
刚刚,Mistral AI 文告其旗舰开源模子的下一代居品:Mistral Large 2,该模子领有 1230 亿个参数,在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新顶端模子不相高下。
紧随 Llama 3.1 405B 之后,Mistral Large 2 的发布闪开源大模子的赛说念一下子侵略起来,而这一模子的特色是 ——「富有大」。
具体来说,天然 Mistral Large 2 参数目低于 Llama 3.1 的 4050 亿,但两者性能接近。况兼在多个基准测试中与 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 忘形。
本年 2 月,Mistral AI 推出了开端的 Large 模子,其高下文窗口包含 32,000 个 token,新版模子在此基础上构建,具有更大的 128,000 个高下文窗口(约莫荒谬于一册 300 页的书)—— 与 OpenAI 的 GPT-4o 和 GPT-4o mini 以及 Meta 的 Llama 3.1 相匹配。
当前,Mistral Large 2 守旧数十种谈话,包括法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、汉文、日语和韩语,以及 80 多种编程谈话,包括 Python、Java、C、C++、JavaScript 和 Bash。
哥要射Mistral AI 指出,新模子将链接冲破本钱后果、速率和性能的界限,同期为用户提供新功能,包括高等函数调用和检索,以构建高性能的 AI 欺诈。
不外,值得着重的是,Mistral Large 2 天然是怒放的,但只限于琢磨和非交易用途。它提供了怒放的权重,允许第三方阐述我方的需求对模子进行微调。这一契约是对用户使用条目的一个蹙迫范围。关于需要自行部署 Mistral Large 2 的交易用途,必须提前取得 Mistral AI 交易许可证。
性能剖判
在多项评估观点上,Mistral Large 2 刷新了性能和行状本钱的新圭臬。荒谬是在 MMLU 上,预现实版块完好意思了 84.0% 的准确率。
代码与推理
Mistral AI 基于此前 Codestral 22B 和 Codestral Mamba 的教育,在很大一部分代码上现实了 Mistral Large 2。
Mistral Large 2 的剖判远远优于上一代的 Mistral Large【AUKG-037】ニューハーフベスト 4時間,况兼与 GPT-4o、Claude 3 Opus 和 Llama 3 405B 等顶尖模子荒谬。
Mistral AI 还干预了多数元气心灵来增强模子的推理能力,重心之一即是尽量减少模子产生「幻觉」或产生看似合理但骨子上不正确或不联系信息的倾向。这是通过微调模子来完好意思的,使其在修起时愈加严慎和横蛮,确保其提供可靠和准确的输出。
此外,在找不到科罚有筹画或莫得富有的信息来提供一个自信的谜底时,Mistral Large 2 会承认(我方答不出来)。这种瞄准确性的追求体现在了数学基准测试中模子性能的提高,下图展示了其增强的推理和科罚问题的能力:
代码生成基准上的性能准确性(统统模子都通过疏浚的评估经过进行基准测试)。
MultiPL-E 上的性能准确性(除 paper 外,统统模子都通过疏浚的评估经过进行基准测试)。
GSM8K(8-shot)和 MATH(0-shot,无 CoT)生成基准上的性能准确性(统统模子都通过疏浚的评估经过进行基准测试)。
领导服从与对皆
Mistral AI 大幅普及了 Mistral Large 2 的领导服从和对话能力。新的 Mistral Large 2 尤其擅长服从精确领导和处理长本事的多轮对话。
以下是其在 MT-Bench、Wild Bench 和 Arena Hard 基准测试中的剖判:
模子在通用对皆基准测试中的性能(统统模子均通过疏浚的评估 pipeline 进行测试)
在某些基准测试中,生成较长的回答频频会提高评分。但是,在好多交易欺诈中,纯粹至关蹙迫,这是因为纯粹的模子生成概况加速交互速率,并缩小推理本钱。
是以 Mistral AI 破耗了多数元气心灵,确保生成的内容尽可能三言两语。
下图展示了在 MT Bench 基准测试的问题上,不同模子生成的回答的平均长度:
谈话种种性
当前多数的交易化欺诈场景触及处理多谈话文档。Mistral Large 2 在多数多谈话数据上进行了现实,荒谬是在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、汉文、日语、韩语、阿拉伯语和印地语方面都剖判优异。
以下是 Mistral Large 2 在多谈话 MMLU 基准测试中的性能收尾,主若是与之前的 Mistral Large、Llama 3.1 模子以及 Cohere 的 Command R+ 的对比:
多谈话 MMLU 性能(以基础预现实模子测量)
用具使用与函数调用
Mistral Large 2 配备了增强的函数调用和检索妙技,经过现实概况纯熟地实行并行温和序函数调用,使其概况成为复杂业务欺诈枢纽的弘大引擎。
下图为 Mistral Large 2 在函数调用上与其他主流模子的准确性对比:
试用 Mistral Large 2
用户不错通过 la Plateforme 上使用 Mistral Large 2,称号为 mistral-large-2407 ,并在 le Chat 上测试。它的版块是 24.07(Mistral 对统统模子袭取的都是 YY.MM 版块编号系统),API 称号为 mistral-large-2407。
领导模子的权重已提供,托管在 HuggingFace 上。
权重归并:https://huggingface.co/mistralai/Mistral-Large-Instruct-2407
Mistral AI 正在将 la Plateforme 上的居品整合为两个通用模子:Mistral Nemo和 Mistral Large,以及两个专科模子:Codestral 和 Embed。跟着他们冉冉淘汰 la Plateforme 上的旧模子,统统的 Apache 模子(包括 Mistral 7B、Mixtral 8x7B 和 8x22B、Codestral Mamba、Mathstral)仍然不错使用 Mistral AI 的 SDK——mistral-inference 和 mistral-finetune 进行部署和微调。
从今天启动,他们推广了 la Plateforme 上的微调功能:现在,这些功能适用于 Mistral Large、Mistral Nemo 和 Codestral。
此外,Mistral AI 与云行状提供商都有调和,Mistral Large 2 将很快登陆这些平台。Mistral AI 扩大了与 Google Cloud Platform 的调和,通过 Managed API 将 Mistral AI 的模子引入 Vertex AI。与此同期,还不错在 Amazon Bedrock、Azure AI Studio 和 IBM watsonx.ai 上找到。
参考归并:
https://mistral.ai/news/mistral-large-2407/
https://venturebeat.com/ai/mistral-shocks-with-new-open-model-mistral-large-2-taking-on-llama-3-1/
https://techcrunch.com/2024/07/24/mistral-releases-large-2-meta-openai-ai-models/【AUKG-037】ニューハーフベスト 4時間