Meta 考虑与新闻出版商合作获取人工智能训练数据

随着 Meta 全力投入生成人工智能工作,该公司正在考虑是否需要付费才能获得更高质量和更即时的培训数据,以改进其工具 – 并且它正在关注新闻行业。 据两位知情人士透露,Meta(前身为 Facebook)的团队正在内部讨论该公司是否应该与新闻出版商达成新的付费协议,以提供更多、更深入的新闻、照片和视频内容访问。 这些人的身份已为《商业内幕》所知,他们要求保持匿名,这样他们就可以自由发言,而不必担心或遭到报复。 讨论新闻内容访问权限的团队包括合作伙伴、产品和法律团队的领导者。 知情人士表示,Meta 可能需要这样的访问权限,以使其生成式人工智能工具(如 MetaAI)对用户更有效,并在日益拥挤的生成式人工智能搜索工具和聊天机器人市场中更具竞争力。 一位知情人士表示:“Meta 可能别无选择,只能付钱给某人。” Meta 发言人拒绝发表评论。 Meta 首席执行官马克·扎克伯格今年早些时候声称,他的公司拥有自己的数据,用于训练其 Llama 大型语言模型,该模型的规模比 Common Crawl 还要大,Common Crawl 是一组广泛的网络抓取数据,被(包括 Meta 在内的)广泛用于 AI 模型训练。 如果 Meta 选择或被迫更多地依赖自己的数据,它可能会再次陷入困境,其产出落后于谷歌和 OpenAI 等竞争对手。 此前,扎克伯格表示,他并没有预料到生成式人工智能会出现繁荣。 大约两年前,随着 ChatGPT 聊天机器人的推出,生成式人工智能引起了公众的广泛关注,此后不久,新闻媒体和其他网站就开始屏蔽 Common Crawl 和 OpenAI 部署的自动机器人,以不断免费抓取其内容。美国版权局正在考虑制定新规则以涵盖生成式人工智能。如果无法免费且持续地访问新闻出版商的内容,Meta AI 对用户有关时事的提示的响应可能会变得更加有限、过时或不正确。 目前在生成人工智能领域展开激烈竞争的主要竞争对手科技公司已经与新闻出版商和媒体机构达成协议,以获得更多用作模型训练数据的内容。 新闻集团与谷歌签署了一项协议。 《金融时报》、美联社、Dotdash Meredith 以及 BI、Politico 和欧洲多家出版物的母公司 Axel Springer 都与 […]

互联网正在被臃肿的垃圾所破坏

听听这篇文章 由 ElevenLabs 和 NOA 制作的 News Over Audio,使用 AI 旁白。 我们生活在注意力短暂的时代。 然而:在博客文章中查找食谱需要首先滚动过去 中篇小说 详细介绍了厨师对这道菜的个人体验。 流媒体节目 跑长,拖入故事片领域。 剧集数 乔·罗根的经历 播客有时比 阿凡达。 即使是曾经以短媒体闻名的平台也在突破极限:280 个字符的推文时代已经一去不复返了; 在 X 上,用户 现在可以支付额外费用来发布最多 25,000 个字符 (作为比较,本文不足 6,000 条)。 YouTube 视频曾经有 硬上限 时长10分钟; 现在他们 能 (和 做)达到12小时。 据报道,就连 TikTok 也在进行长期测试 最长 15 分钟的新限制 对于一些创作者来说。 当然,其中一些是出于观众的真正兴趣。 毕竟,长度有时与质量相关。 阅读全部 1000 多页 无限笑话,或者观看全部三个小时 奥本海默被认为是一项有价值的成就,而观看 60 […]