科技巨头如何走捷径获取人工智能数据科技新闻

作者:Cade Metz、Cecilia Kang、Sheera Frenkel、Stuart A Thompson 和 Nico Grant 2021年底,OpenAI面临供应问题。 人工智能实验室在开发最新的人工智能系统时,耗尽了互联网上所有有信誉的英语文本库。 它需要更多的数据来训练其技术的下一个版本——更多。 因此 OpenAI 研究人员创建了一款名为 Whisper 的语音识别工具。 它可以转录 YouTube 视频中的音频,生成新的对话文本,使人工智能系统变得更加智能。 三名知情人士表示,一些 OpenAI 员工讨论了此举可能违反 YouTube 的规则。 谷歌旗下的 YouTube 禁止将其视频用于“独立”于该视频平台的应用程序。 知情人士称,最终 OpenAI 团队转录了超过 100 万小时的 YouTube 视频。 两位知情人士称,该团队包括 OpenAI 总裁格雷格·布罗克曼 (Greg Brockman),他亲自帮助收集了这些视频。 然后这些文本被输入一个名为 GPT-4 的系统,该系统被广泛认为是世界上最强大的人工智能模型之一,也是最新版本 ChatGPT 聊天机器人的基础。 引领人工智能的竞赛已经变成了对推进技术所需的数字数据的拼命搜寻。 根据《纽约时报》的调查,为了获取这些数据,包括 OpenAI、谷歌和 Meta 在内的科技公司纷纷走捷径,无视公司政策,并争论是否违反法律。 根据《泰晤士报》获得的内部会议记录,在拥有 Facebook 和 Instagram 的 […]