Meta 考虑与新闻出版商合作获取人工智能训练数据

随着 Meta 全力投入生成人工智能工作,该公司正在考虑是否需要付费才能获得更高质量和更即时的培训数据,以改进其工具 – 并且它正在关注新闻行业。 据两位知情人士透露,Meta(前身为 Facebook)的团队正在内部讨论该公司是否应该与新闻出版商达成新的付费协议,以提供更多、更深入的新闻、照片和视频内容访问。 这些人的身份已为《商业内幕》所知,他们要求保持匿名,这样他们就可以自由发言,而不必担心或遭到报复。 讨论新闻内容访问权限的团队包括合作伙伴、产品和法律团队的领导者。 知情人士表示,Meta 可能需要这样的访问权限,以使其生成式人工智能工具(如 MetaAI)对用户更有效,并在日益拥挤的生成式人工智能搜索工具和聊天机器人市场中更具竞争力。 一位知情人士表示:“Meta 可能别无选择,只能付钱给某人。” Meta 发言人拒绝发表评论。 Meta 首席执行官马克·扎克伯格今年早些时候声称,他的公司拥有自己的数据,用于训练其 Llama 大型语言模型,该模型的规模比 Common Crawl 还要大,Common Crawl 是一组广泛的网络抓取数据,被(包括 Meta 在内的)广泛用于 AI 模型训练。 如果 Meta 选择或被迫更多地依赖自己的数据,它可能会再次陷入困境,其产出落后于谷歌和 OpenAI 等竞争对手。 此前,扎克伯格表示,他并没有预料到生成式人工智能会出现繁荣。 大约两年前,随着 ChatGPT 聊天机器人的推出,生成式人工智能引起了公众的广泛关注,此后不久,新闻媒体和其他网站就开始屏蔽 Common Crawl 和 OpenAI 部署的自动机器人,以不断免费抓取其内容。美国版权局正在考虑制定新规则以涵盖生成式人工智能。如果无法免费且持续地访问新闻出版商的内容,Meta AI 对用户有关时事的提示的响应可能会变得更加有限、过时或不正确。 目前在生成人工智能领域展开激烈竞争的主要竞争对手科技公司已经与新闻出版商和媒体机构达成协议,以获得更多用作模型训练数据的内容。 新闻集团与谷歌签署了一项协议。 《金融时报》、美联社、Dotdash Meredith 以及 BI、Politico 和欧洲多家出版物的母公司 Axel Springer 都与 […]