2021年底,OpenAI面临供应问题。 人工智能实验室在开发最新的人工智能系统时,耗尽了互联网上所有有信誉的英语文本库。 它需要更多的数据来训练其技术的下一个版本——更多。 因此 OpenAI 研究人员创建了一款名为 Whisper 的语音识别工具。
它可以转录 YouTube 视频中的音频,生成新的对话文本,使人工智能系统变得更加智能。 三名知情人士表示,一些 OpenAI 员工讨论了此举可能违反 YouTube 的规则。
谷歌旗下的 YouTube 禁止将其视频用于“独立”于该视频平台的应用程序。
知情人士称,最终 OpenAI 团队转录了超过 100 万小时的 YouTube 视频。 两位知情人士称,该团队包括 OpenAI 总裁格雷格·布罗克曼 (Greg Brockman),他亲自帮助收集了这些视频。
然后这些文本被输入一个名为 GPT-4 的系统,该系统被广泛认为是世界上最强大的人工智能模型之一,也是最新版本 ChatGPT 聊天机器人的基础。 引领人工智能的竞赛已经变成了对推进技术所需的数字数据的拼命搜寻。
根据《纽约时报》的调查,为了获取这些数据,包括 OpenAI、谷歌和 Meta 在内的科技公司纷纷走捷径,无视公司政策,并争论是否违反法律。
根据《泰晤士报》获得的内部会议记录,在拥有 Facebook 和 Instagram 的 Meta 公司,经理、律师和工程师去年讨论了收购 Simon & Schuster 出版社以采购长篇作品。 他们还商定从互联网上收集受版权保护的数据,即使这意味着面临诉讼。 他们说,与出版商、艺术家、音乐家和新闻业谈判许可将花费太长时间。
五位了解该公司实践的人士表示,与 OpenAI 一样,谷歌也转录了 YouTube 视频,为其人工智能模型收集文本。
这可能侵犯了视频的版权。
去年,谷歌还扩大了其服务条款。 根据该公司隐私团队的成员和《纽约时报》看到的一份内部消息,这一变化的动机之一是允许谷歌能够利用公开的谷歌文档、谷歌地图上的餐厅评论和其他在线材料来获取更多信息。人工智能产品。
这些公司的行动说明了在线信息——新闻故事、虚构作品、留言板帖子、维基百科文章、计算机程序、照片、播客和电影剪辑——如何日益成为蓬勃发展的人工智能行业的命脉。
创建创新系统取决于是否有足够的数据来教导技术立即生成类似于人类创建的文本、图像、声音和视频。 人工智能研究人员表示,最有价值的数据是高质量的信息,例如由专业人士精心撰写和编辑的已出版的书籍和文章。 多年来,互联网(包括维基百科和 Reddit 等网站)似乎是无穷无尽的数据源。 但随着人工智能的进步,科技公司寻求更多的存储库。 谷歌和 Meta 拥有数十亿用户,每天都会产生搜索查询和社交媒体帖子,但它们受到隐私法及其政策的限制,无法将大部分内容用于人工智能。
据研究机构 Epoch 称,到 2026 年,科技公司可以在互联网上运行高质量的数据。 这些公司使用数据的速度快于数据产生的速度。 硅谷风险投资公司 Andreessen Horowitz 的代表律师西·达姆勒 (Sy Damle) 在谈到人工智能模型时表示:“这些工具存在的唯一实用方法是,它们可以接受大量数据的训练,而无需获得许可。”年。
©2024 纽约时报新闻
首次发布: 2024 年 4 月 7 日 | 晚上 11:33 是
1712540643
#科技巨头如何走捷径获取人工智能数据科技新闻
2024-04-07 18:03:05