大型语言模型的新兴能力只是海市蜃楼

原来的版本的 这个故事 出现在 广达杂志。

两年前，在一个名为超越模仿游戏基准或 BIG-bench，450 名研究人员编制了一份包含 204 项任务的列表，旨在测试大语言模型，为 ChatGPT 等聊天机器人提供支持。在大多数任务中，随着模型规模的扩大，性能可预测且平稳地提高——模型越大，性能就越好。但在其他任务中，能力的提升并不顺利。性能一度保持在零附近，然后性能猛增。其他研究也发现了类似的能力飞跃。

作者将此描述为“突破性”行为；其他研究人员将其比作物理学中的相变，就像液态水冻结成冰一样。在一篇论文研究人员于 2022 年 8 月发表的论文指出，这些行为不仅令人惊讶，而且不可预测，它们应该为围绕人工智能不断发展的对话提供信息安全、潜力和风险。他们称这些能力为“涌现的，”这个词描述了只有在系统达到高度复杂性时才会出现的集体行为。

但事情可能没那么简单。一篇新论文斯坦福大学的三名研究人员认为，这些能力的突然出现只是研究人员衡量法学硕士表现方式的结果。他们认为，这些能力既不是不可预测的，也不是突然出现的。 “这种转变比人们想象的更容易预测，”他说山美光耀，斯坦福大学计算机科学家，该论文的高级作者。 “对出现的强烈主张与我们选择的衡量方式有关，与模型正在做什么有关。”

由于这些模型变得如此庞大，我们现在才看到并研究这种行为。大型语言模型通过分析大量数据进行训练文本数据集——来自在线资源的单词，包括书籍、网络搜索和维基百科——以及查找经常一起出现的单词之间的链接。大小是用参数来衡量的，大致类似于单词连接的所有方式。参数越多，法学硕士可以找到的联系就越多。 GPT-2 有 15 亿个参数，而支持 ChatGPT 的 LLM GPT-3.5 使用了 3500 亿个参数。 GPT-4，于 2023 年 3 月首次亮相，现在是微软副驾驶据报道使用了 1.75 万亿美元。

这种快速增长带来了性能和效率的惊人飙升，而且没有人质疑足够大的法学硕士可以完成较小模型无法完成的任务，包括那些未经训练的任务。斯坦福大学的三人将出现视为“海市蜃楼”，他们认识到法学硕士随着规模的扩大而变得更加有效；实际上，增加了复杂性更大的模型应该能够更好地解决更困难和多样化的问题。但他们认为，这种改进是否看起来平滑且可预测，或者锯齿状且尖锐的结果取决于指标的选择（甚至是测试示例的缺乏），而不是模型的内部运作。