更便宜、更好、更快、更强| 米斯特拉尔人工智能

Mixtral 8x22B 是我们最新的开放型号。 它为人工智能社区的性能和效率设立了新标准。 它是一种稀疏专家混合 (SMoE) 模型,仅使用 141B 个活动参数中的 39B 个,在其规模下提供了无与伦比的成本效率。

Mixtral 8x22B 具有以下优点:

  • 这是 精通英语、法语、意大利语、德语和西班牙语
  • 具有很强的数学和编码能力
  • 它本身就能够进行函数调用; 加上 la Plateforme 上实施的受限输出模式,这使得应用程序开发和技术堆栈现代化能够大规模进行
  • 它是 64K 令牌上下文窗口 允许从大型文档中调用精确的信息

真正开放

我们相信开放和广泛分布的力量可以促进人工智能领域的创新和协作。

因此,我们在 Apache 2.0(最宽松的开源许可证)下发布 Mixtral 8x22B,允许任何人在任何地方不受限制地使用该模型。

最佳效率

我们构建的模型提供 各自尺寸无与伦比的成本效率,在社区提供的模型中提供最佳的性价比。

Mixtral 8x22B 是我们开放式型号系列的自然延续。 其稀疏激活模式使其比任何密集的 70B 模型更快,同时比任何其他开放权重模型(在宽松或限制性许可下分发)更强大。 基本模型的可用性使其成为微调用例的绝佳基础。

图 1:性能衡量 (MMLU) 与推理预算权衡(活动参数数量)。 与其他开放型号相比,Mistral 7B、Mixtral 8x7B 和 Mixtral 8x22B 均属于高效型号系列。

无与伦比的开放性能

以下是开放模型在标准行业基准上的比较。

推理和知识

Mixtral 8x22B 针对推理进行了优化。

Mixtral 8x22b 的 MMLU

图 2:顶级 LLM 开放模型在广泛常识、推理和知识基准上的表现:MMLU(测量理解中的大规模多任务语言)、HellaSwag(10 次)、Wino Grande(5 次)、Arc Challenge( 5 次)、Arc Challenge(25 次)、TriviaQA(5 次)和 NaturalQS(5 次)。

多语言能力

Mixtral 8x22B 具有原生多语言功能。 它在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 基准测试中明显优于 LLaMA 2 70B。

Mixtral 8x22b 的 MMLU

图 3:Mistral 开源模型与 LLaMA 2 70B 在 HellaSwag、Arc Challenge 和 MMLU 上法语、德语、西班牙语和意大利语的比较。

数学与编码

与其他开放模型相比,Mixtral 8x22B 在编码和数学任务中表现最佳。

Mixtral 8x22b 的 MMLU

图 4:领先开放模型在流行编码和数学基准上的性能:HumanEval pass@1、MBPP pass@1、GSM8K maj@1(5 个镜头)、GSM8K maj@8(8 个镜头)和 Math maj@4。

今天发布的 Mixtral 8x22B 的指导版本显示出更好的数学性能,在 GSM8K maj@8 上得分为 90.8%,Math maj@4 得分为 44.6%。

立即在 La Plateforme 上探索 Mixtral 8x22B,并加入 Mistral 开发者社区,与我们一起定义 AI 前沿。

1713370301
#更便宜更好更快更强 #米斯特拉尔人工智能
2024-04-17 14:00:37

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​