人工智能“淘金热”:聊天机器人训练数据或将耗尽人工编写的文本

人工智能 像 ChatGPT 这样的系统可能很快就会耗尽让它们变得更智能的资源——人们在网上书写和分享的数十万亿个单词。

A 周四发布新研究 研究小组 Epoch AI 预测,大约在本世纪初,也就是 2026 年至 2032 年之间,科技公司将耗尽人工智能语言模型的公开训练数据。

该研究的作者塔马伊·贝西罗格鲁将其比作耗尽有限自然资源的“淘金热”,他表示,一旦耗尽人类写作资源,人工智能领域可能难以维持目前的进步速度。

短期内,ChatGPT 制造商 OpenAI 和谷歌等科技公司正在竞相获取高质量数据源,有时甚至付费获取,以训练他们的 AI 大型语言模型——例如,通过签署协议来利用源源不断的句子流。 退出 Reddit 论坛新闻媒体

从长远来看,不会有足够的新博客、新闻文章和社交媒体评论来维持人工智能发展的当前轨迹,这将给企业带来压力,迫使它们利用现在被视为私人的敏感数据(如电子邮件或短信),或者依赖聊天机器人自己产生的可靠性较低的“合成数据”。

“这里存在一个严重的瓶颈,”Besiroglu 说。“如果你开始遇到数据量方面的限制,那么你就无法再有效地扩展你的模型了。而扩展模型可能是扩展其能力和提高其输出质量的最重要方式。”

研究人员在两年前(ChatGPT 首次亮相前不久)首次在 工作文件预测 2026 年是高质量文本数据的截止日期,这一日期迫在眉睫。自那时以来,很多事情都发生了变化,包括新技术使人工智能研究人员能够更好地利用他们已有的数据,有时甚至对同一来源的数据进行多次“过度训练”。

但这也存在局限性。经过进一步研究,Epoch 预计未来两到八年内公共文本数据将会耗尽。

该团队的最新研究已通过同行评审,并将在今年夏天于奥地利维也纳举行的国际机器学习会议上发表。Epoch 是一家非营利性机构,由旧金山的 Rethink Priorities 主办,由有效利他主义的支持者资助——这是一项慈善运动,已投入大量资金用于减轻人工智能的最坏风险。

贝西罗格鲁表示,人工智能研究人员十多年前就意识到,积极扩展两个关键因素——计算能力和海量互联网数据——可以显著提高人工智能系统的性能。

根据 Epoch 的研究,输入 AI 语言模型的文本数据量每年增长约 2.5 倍,而计算量每年增长约 4 倍。Facebook 母公司 Meta Platforms 最近声称,其最大的版本 即将推出的 Llama 3 车型 —尚未发布 — 已接受了多达 15 万亿个标记的训练,每个标记可以代表一个单词的一部分。

但数据瓶颈问题有多大值得担心仍存在争议。

多伦多大学计算机工程学助理教授、非营利性人工智能向量研究所研究员 Nicolas Papernot 表示:“我认为重要的是要记住,我们不一定需要训练越来越大的模型。”

帕珀诺特没有参与 Epoch 的研究,他说,构建更熟练的人工智能系统也可以通过训练更专门用于特定任务的模型来实现。但他担心,用生成式人工智能系统产生的相同输出来训练它们,会导致性能下降,也就是所谓的“模型崩溃”。

Papernot 表示,对人工智能生成的数据进行训练“就像复印一张纸,然后复印复印件一样。你会丢失一些信息。”不仅如此,Papernot 的研究还发现,它可以进一步编码已经融入信息生态系统的错误、偏见和不公平。

如果真正的人类编写的句子仍然是一个关键的人工智能数据源,那么那些最受追捧的宝库的管理者——Reddit 和维基百科等网站,以及新闻 和图书出版商 ——被迫认真思考如何使用它们。

“也许你不会砍掉每座山的山顶,”维基媒体基金会(负责维基百科)首席产品和技术官 Selena Deckelmann 开玩笑说。“现在我们在讨论自然资源问题时讨论人类创造的数据,这是一个有趣的问题。我不应该嘲笑它,但我确实觉得这有点不可思议。”

尽管有些人试图阻止他们的数据用于人工智能训练(通常是在数据已被无偿获取之后),但维基百科对人工智能公司如何使用志愿者撰写的条目几乎没有任何限制。不过,德克尔曼表示,她希望继续激励人们继续做出贡献,尤其是在大量廉价和自动生成的“垃圾内容”开始污染互联网的情况下。

她表示,人工智能公司应该“关注人类生成的内容如何继续存在并继续被访问”。

从人工智能开发人员的角度来看,Epoch 的研究表示,支付数百万人来生成人工智能模型所需的文本“不太可能是一种经济的方式”,无法提高技术性能。

随着 OpenAI 开始着手训练下一代 GPT 大型语言模型,首席执行官 Sam Altman 上个月在联合国的一次活动上告诉观众,该公司已经尝试“生成大量合成数据”用于训练。

“我认为你需要的是高质量的数据。现在有低质量的合成数据。还有低质量的人工数据,”Altman 说。但他也对过度依赖合成数据而不是其他技术方法来改进人工智能模型表示保留。

“如果训练模型的最佳方式只是生成一千万亿个合成数据并将其反馈回去,那将是一件非常奇怪的事情,”Altman 说。“不知何故,这似乎效率低下。”

——————

美联社和 OpenAI 许可和技术协议 这使得 OpenAI 可以访问 AP 的部分文本档案。

1717694420
2024-06-06 13:31:41

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​