研究人员警告说,到 2026 年,我们可能会耗尽用于训练人工智能的数据。然后呢?

图片来源:Pixabay/CC0 公共领域

随着人工智能 (AI) 达到 其受欢迎程度达到顶峰研究人员 已经警告过 该行业可能会耗尽训练数据——运行强大人工智能系统的燃料。 这可能会减缓人工智能模型的增长,尤其是大型语言模型,甚至可能改变人工智能革命的轨迹。

但考虑到网络上有多少数据,为什么潜在的数据缺乏会成为一个问题呢? 有没有办法应对风险?

为什么高质量数据对人工智能很重要

我们需要大量的数据来训练强大、准确、高质量的人工智能算法。 例如,ChatGPT 接受了 570 GB 文本数据的训练,或者大约 3000亿字

类似地,稳定扩散算法(这是许多 AI 图像生成应用程序(例如 DALL-E、Lensa 和 Midjourney)背后的算法)在 LIAON-5B 数据集 由 58 亿个图像文本对组成。 如果算法训练的数据量不足,它将产生不准确或低质量的输出。

的质量 训练数据 也很重要。 低质量数据,例如 社交媒体帖子 或模糊的照片很容易获取,但不足以训练高性能的人工智能模型。

文字取自 社交媒体平台 可能存在偏见或成见,或可能包含虚假信息或 非法内容 可以通过模型复制。 例如,当微软尝试使用 Twitter 内容训练其人工智能机器人时, 学会了生产 种族主义和厌恶女性的产出。

这就是为什么人工智能开发人员寻找高质量的内容,例如书籍文本、在线文章、 科学论文、维基百科和某些经过过滤的网页内容。 谷歌助理是 训练有素的 收录于 11,000 部言情小说 自助出版网站 Smashwords 使其更具对话性。

我们有足够的数据吗?

人工智能行业一直在越来越大的数据集上训练人工智能系统,这就是为什么我们现在拥有 ChatGPT 或 DALL-E 3 等高性能模型。同时,研究表明,在线数据库存的增长速度远远慢于所使用的数据集的增长速度来训练人工智能。

在去年发表的一篇论文中, 一群研究人员 预测如果当前的人工智能训练趋势持续下去,我们将在 2026 年之前耗尽高质量的文本数据。 他们还估计,低质量的语言数据将在 2030 年至 2050 年间耗尽,低质量的图像数据将在 2030 年至 2060 年间耗尽。

人工智能 可以贡献高达 15.7 万亿美元(24.1 万亿澳元) 世界经济 据会计和咨询集团普华永道称,到 2030 年。 但可用数据的耗尽可能会减慢其发展速度。

我们应该担心吗?

虽然上述几点可能会让一些人工智能粉丝感到震惊,但情况可能并不像看起来那么糟糕。 未来人工智能模型将如何发展,以及解决数据短缺风险的几种方法还有很多未知数。

人工智能开发人员有机会改进算法,以便更有效地使用已有的数据。

未来几年,他们很可能能够使用更少的数据和更少的计算能力来训练高性能的人工智能系统。 这也将有助于减少人工智能 碳足迹

另一种选择是使用人工智能来创建 综合数据 来训练系统。 换句话说,开发人员可以简单地生成他们需要的数据,并根据他们特定的人工智能模型进行整理。

几个项目已经在使用合成内容,这些内容通常来自数据生成服务,例如 主要是人工智能。 这会 变得更加普遍 将来。

开发人员还在免费在线空间之外搜索内容,例如大型出版商和离线存储库持有的内容。 想想互联网之前发布的数以百万计的文本。 它们以数字方式提供,可以为人工智能项目提供新的数据源。

全球最大的新闻内容所有者之一新闻集团(其大部分内容均需付费)最近表示,它正在 谈判 内容涉及人工智能开发人员。 此类交易将迫使人工智能公司为训练数据付费,而到目前为止,它们大多是免费从互联网上获取数据的。

内容创作者抗议未经授权使用其内容来训练人工智能模型,一些公司起诉了诸如 微软、开放人工智能稳定性人工智能。 为他们的工作获得报酬可能有助于恢复创意人员和人工智能公司之间存在的一些权力不平衡。

由…提供
对话


本文转载自 对话 根据知识共享许可。 阅读 来源文章对话

引文:研究人员警告说,到 2026 年,我们可能会耗尽用于训练人工智能的数据。然后呢? (2023 年,11 月 8 日)2023 年 11 月 12 日检索自 https://techxplore.com/news/2023-11-ai.html

本文件受版权保护。 除出于私人学习或研究目的的公平交易外,未经书面许可不得复制任何部分。 内容仅供参考。

1699835219
#研究人员警告说到 #年我们可能会耗尽用于训练人工智能的数据然后呢
2023-11-08 19:15:03

See also  AI 历史项目 D Day 和 WW2 Vets by Paul Rittershausen :: Kicktraq

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​