微软的小语言模型在标准化数学测试中优于较大的模型

图片来源:Pexels 的 Deepak Gautam

微软的一个人工智能研究人员小组报告称,该公司的 Orca-Math 小语言模型在标准化数学测试中优于其他较大的模型。 该小组已发表了 arXiv 预印本服务器描述了他们在小学数学 8K (GSM8K) 基准上对 Orca-Math 的测试以及它与知名法学硕士相比的表现。

许多受欢迎的法学硕士(例如 ChatGPT)以其令人印象深刻的会话能力而闻名,但鲜为人知的是,他们中的大多数还可以解决数学应用题。 AI 研究人员通过将他们与 GSM8K 进行比较来测试他们执行此类任务的能力,GSM8K 是一个包含 8,500 个小学数学应用题的数据集,需要多步推理才能解决,并附有正确答案。

在这项新研究中,微软的研究团队测试了 Orca-Math,这是微软另一个团队开发的人工智能应用程序,专门用于解决数学应用题,并将结果与​​更大的人工智能模型进行了比较。

微软指出其 研究博客文章 ChatGPT 和 Orca-Math 等流行的法学硕士之间存在重大差异。 前者是大语言模型,后者是小语言模型——区别在于使用的参数数量; SLM 通常使用数千或几百万,而不是法学硕士使用的数十亿或数万亿。 另一个区别是,正如其名称所示,Orca-Math 是专门为解决 数学 问题; 因此,它不能用于进行对话或回答随机问题。

Orca-Math 与其他 SLM 相比相对较大,有 70 亿个参数,但仍然比大多数知名的 LLM 小得多。 不过,它在 GSM8k 上的得分仍然达到了 86.81%,接近 GPT-4-0613 的 97.0%。 Llama-2 等其他产品的表现则差强人意,得分低至 14.6%。

微软透露,它之所以能够获得如此高的分数,是因为它使用了比通用法学硕士更高质量的训练数据,并且因为它使用了微软人工智能团队一直在开发的交互式学习过程——一个不断改进结果的过程通过使用老师的反馈。 Microsoft 团队得出的结论是,在特殊条件下开发时,SLM 在某些应用程序上的性能可以与 LLM 一样好。

更多信息:
Arindam Mitra 等人,Orca-Math:释放 SLM 在小学数学中的潜力, arXiv (2024)。 DOI:10.48550/arxiv.2402.14830

逆戟鲸数学: www.microsoft.com/en-us/resear … odel-specialization/
twitter.com/Arindam1408/status/1764761895473762738

期刊信息:
arXiv


© 2024 科学 X 网络

引文:微软的小语言模型在标准化数学测试中的表现优于大型模型(2024 年 3 月 8 日),检索于 2024 年 3 月 10 日 https://techxplore.com/news/2024-03-microsoft-small-language-outperforms-larger.html

本文件受版权保护。 除出于私人学习或研究目的的公平交易外,未经书面许可不得复制任何部分。 内容仅供参考。


1710062352
#微软的小语言模型在标准化数学测试中优于较大的模型
2024-03-08 15:40:01

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​