微软的小语言模型在标准化数学测试中优于较大的模型

图片来源：Pexels 的 Deepak Gautam

微软的一个人工智能研究人员小组报告称，该公司的 Orca-Math 小语言模型在标准化数学测试中优于其他较大的模型。该小组已发表了纸于 arXiv 预印本服务器描述了他们在小学数学 8K (GSM8K) 基准上对 Orca-Math 的测试以及它与知名法学硕士相比的表现。

许多受欢迎的法学硕士（例如 ChatGPT）以其令人印象深刻的会话能力而闻名，但鲜为人知的是，他们中的大多数还可以解决数学应用题。 AI 研究人员通过将他们与 GSM8K 进行比较来测试他们执行此类任务的能力，GSM8K 是一个包含 8,500 个小学数学应用题的数据集，需要多步推理才能解决，并附有正确答案。

在这项新研究中，微软的研究团队测试了 Orca-Math，这是微软另一个团队开发的人工智能应用程序，专门用于解决数学应用题，并将结果与更大的人工智能模型进行了比较。

微软指出其研究博客文章 ChatGPT 和 Orca-Math 等流行的法学硕士之间存在重大差异。前者是大语言模型，后者是小语言模型——区别在于使用的参数数量； SLM 通常使用数千或几百万，而不是法学硕士使用的数十亿或数万亿。另一个区别是，正如其名称所示，Orca-Math 是专门为解决数学问题; 因此，它不能用于进行对话或回答随机问题。

Orca-Math 与其他 SLM 相比相对较大，有 70 亿个参数，但仍然比大多数知名的 LLM 小得多。不过，它在 GSM8k 上的得分仍然达到了 86.81%，接近 GPT-4-0613 的 97.0%。 Llama-2 等其他产品的表现则差强人意，得分低至 14.6%。

微软透露，它之所以能够获得如此高的分数，是因为它使用了比通用法学硕士更高质量的训练数据，并且因为它使用了微软人工智能团队一直在开发的交互式学习过程——一个不断改进结果的过程通过使用老师的反馈。 Microsoft 团队得出的结论是，在特殊条件下开发时，SLM 在某些应用程序上的性能可以与 LLM 一样好。

更多信息：
Arindam Mitra 等人，Orca-Math：释放 SLM 在小学数学中的潜力， arXiv （2024）。 DOI：10.48550/arxiv.2402.14830

逆戟鲸数学： www.microsoft.com/en-us/resear … odel-specialization/
twitter.com/Arindam1408/status/1764761895473762738

期刊信息：
arXiv

引文：微软的小语言模型在标准化数学测试中的表现优于大型模型（2024 年 3 月 8 日），检索于 2024 年 3 月 10 日 https://techxplore.com/news/2024-03-microsoft-small-language-outperforms-larger.html

本文件受版权保护。除出于私人学习或研究目的的公平交易外，未经书面许可不得复制任何部分。内容仅供参考。

1710062352
#微软的小语言模型在标准化数学测试中优于较大的模型
2024-03-08 15:40:01

Tags: 信息技术, 创新, 发明, 计算机新闻, 高科技, 高科技新闻

微软的小语言模型在标准化数学测试中优于较大的模型

Related

相关新闻

介绍韩国为“朝鲜”……巴黎奥运会开幕式“荒唐事故”

这才是真正导致癌症的原因：美国科学家找到癌症病例增加的元凶——这一发现令人震惊

Google Pixel 9 Pro 保护壳和官方宣传视频泄露

报告称 CrowdStrike 中断预计将给医疗保健行业造成 19 亿美元的损失

谢隆·摩尔解释了他对密歇根大学橄榄球队下一位四分卫的要求

TigerBeetle 正在构建针对金融交易优化的数据库软件

NEWTRAL MagicH-BPro 人体工学椅子带脚踏板

公司如何在夏季进行车队维护。发动机过热的危险

联邦调查局证实，一颗子弹在暗杀企图中击中了特朗普的耳朵

本周有 NASCAR 比赛吗？取决于你如何定义 NASCAR；不是所有比赛都在奥运休赛期

WTO | 2024 新闻报道

现金流为何如此重要（以及如何确定其优先顺序）——商业

Leave a Reply Cancel reply

近期新闻

介绍韩国为“朝鲜”……巴黎奥运会开幕式“荒唐事故”

这才是真正导致癌症的原因：美国科学家找到癌症病例增加的元凶——这一发现令人震惊

Google Pixel 9 Pro 保护壳和官方宣传视频泄露

报告称 CrowdStrike 中断预计将给医疗保健行业造成 19 亿美元的损失

谢隆·摩尔解释了他对密歇根大学橄榄球队下一位四分卫的要求

TigerBeetle 正在构建针对金融交易优化的数据库软件

编辑精选

信息

More Interesting News

介绍韩国为“朝鲜”……巴黎奥运会开幕式“荒唐事故”

这才是真正导致癌症的原因：美国科学家找到癌症病例增加的元凶——这一发现令人震惊

微软的小语言模型在标准化数学测试中优于较大的模型

Share this:

Related

相关新闻

Leave a Reply Cancel reply

近期新闻​

编辑精选​

Tags

信息

More Interesting News

近期新闻

编辑精选