人工智能训练数据

欧盟新人工智能规则引发数据透明度之争

一套新的管理人工智能（AI）使用的法律欧盟的这一举措将迫使企业对用于训练其系统的数据更加透明，从而揭开该行业最严密保守的秘密之一。自微软支持的 OpenAI 向公众推出 ChatGPT 以来的 18 个月里，公众对生成式人工智能的参与度和投资激增。生成式人工智能是一组可用于快速生成文本、图像和音频内容的应用程序。欧盟最近通过的人工智能法案正在分阶段推行在未来两年内，监管机构将有时间实施新法律，同时企业也将努力履行一系列新义务。但其中一些规则在实践中将如何发挥作用仍不得而知。（如需了解当天的热门科技新闻，订阅关注我们的科技时事通讯《今日缓存》该法案中争议最大的部分之一规定，部署通用人工智能模型（如 ChatGPT）的组织必须提供用于训练这些模型的内容的“详细摘要”。新成立的人工智能办公室表示，在与利益相关者协商后，计划在 2025 年初发布一份供组织遵循的模板。虽然细节尚未敲定，但人工智能公司极力拒绝透露其模型的训练内容，称这些信息属于商业机密，一旦公开，竞争对手将获得不公平的优势。 “这就像做饭，”他补充道。“菜谱中有一个秘密部分，即使是最好的厨师也不会分享，这就是‘难以言喻的’，它让菜谱与众不同。” 这些透明度报告最终的详细程度将对小型人工智能初创公司和谷歌、Meta 等大型科技公司产生重大影响，这些公司已将人工智能技术置于未来运营的核心。分享商业秘密过去一年，包括谷歌、OpenAI 和 Stability AI 都面临创作者提起诉讼，声称他们的内容被不当用于训练他们的模型。在日益严格的审查下，科技公司与媒体和网站签署了一系列内容许可协议。其中，OpenAI 与《金融时报》和《大西洋月刊》签署了协议，而谷歌则与新闻集团社交媒体网站 Reddit 达成了协议。尽管采取了这些举措，OpenAI 仍在 3 月份受到批评，当时首席技术官米拉·穆拉蒂 (Mira Murati) 拒绝回答《华尔街日报》关于 YouTube 视频是否被用于训练其视频生成工具 Sora 的问题，该公司表示这违反了其条款和条件。上个月，OpenAI 在公开演示最新版本的 ChatGPT 时，展示了一种人工智能生成的声音，女演员斯嘉丽约翰逊 (Scarlett Johansson) 称其与她自己的声音“极其相似”，此举遭到了进一步的强烈反对。领先的人工智能初创公司 […]

Meta 考虑与新闻出版商合作获取人工智能训练数据

随着 Meta 全力投入生成人工智能工作，该公司正在考虑是否需要付费才能获得更高质量和更即时的培训数据，以改进其工具 – 并且它正在关注新闻行业。据两位知情人士透露，Meta（前身为 Facebook）的团队正在内部讨论该公司是否应该与新闻出版商达成新的付费协议，以提供更多、更深入的新闻、照片和视频内容访问。这些人的身份已为《商业内幕》所知，他们要求保持匿名，这样他们就可以自由发言，而不必担心或遭到报复。讨论新闻内容访问权限的团队包括合作伙伴、产品和法律团队的领导者。知情人士表示，Meta 可能需要这样的访问权限，以使其生成式人工智能工具（如 MetaAI）对用户更有效，并在日益拥挤的生成式人工智能搜索工具和聊天机器人市场中更具竞争力。一位知情人士表示：“Meta 可能别无选择，只能付钱给某人。” Meta 发言人拒绝发表评论。 Meta 首席执行官马克·扎克伯格今年早些时候声称，他的公司拥有自己的数据，用于训练其 Llama 大型语言模型，该模型的规模比 Common Crawl 还要大，Common Crawl 是一组广泛的网络抓取数据，被（包括 Meta 在内的）广泛用于 AI 模型训练。如果 Meta 选择或被迫更多地依赖自己的数据，它可能会再次陷入困境，其产出落后于谷歌和 OpenAI 等竞争对手。此前，扎克伯格表示，他并没有预料到生成式人工智能会出现繁荣。大约两年前，随着 ChatGPT 聊天机器人的推出，生成式人工智能引起了公众的广泛关注，此后不久，新闻媒体和其他网站就开始屏蔽 Common Crawl 和 OpenAI 部署的自动机器人，以不断免费抓取其内容。美国版权局正在考虑制定新规则以涵盖生成式人工智能。如果无法免费且持续地访问新闻出版商的内容，Meta AI 对用户有关时事的提示的响应可能会变得更加有限、过时或不正确。目前在生成人工智能领域展开激烈竞争的主要竞争对手科技公司已经与新闻出版商和媒体机构达成协议，以获得更多用作模型训练数据的内容。新闻集团与谷歌签署了一项协议。《金融时报》、美联社、Dotdash Meredith 以及 BI、Politico 和欧洲多家出版物的母公司 Axel Springer 都与 […]

索尼音乐警告科技公司“未经授权”使用其内容来训练人工智能

索尼音乐集团已致函 700 多家科技公司和音乐流媒体服务公司，警告他们不要在未经明确许可的情况下使用其音乐来训练人工智能。 > 获得的这封信称，索尼音乐“有理由相信”该信的收件人“可能已经未经授权使用”了其内容。索尼音乐表示，虽然它认识到人工智能的“巨大潜力”，但“在人工智能系统的培训、开发或商业化中未经授权使用 SMG 内容”剥夺了该公司及其艺术家的控制权和“适当的补偿”。该公司的艺术家组合包括众多著名艺术家，如 Harry Styles、Beyoncé、Adele 和 Celine Dion。索尼音乐正在寻求保护其知识产权，其中包括音频和视听录音、封面艺术作品、元数据、歌词等。该公司尚未透露其向哪 700 家公司发送了这封信。索尼音乐表示：“我们支持艺术家和词曲作者带头采用新技术来支持他们的艺术。” 一份声明。 “技术的进步经常改变创意产业的进程。人工智能很可能会延续这一长期趋势。然而，这种创新必须确保歌曲作者和唱片艺术家的权利，包括版权，得到尊重。” 这封信要求收件人详细说明索尼音乐的哪些歌曲被用来训练人工智能系统、这些歌曲是如何被访问的、制作了多少副本、是否仍然存在副本，以及最初为什么存在副本。索尼音乐已给该信函的收件人给出回复的最后期限，并指出它将在“所有司法管辖区适用法律允许的最大范围内”执行其版权。此举出台之际，随着生成式人工智能的兴起，版权侵权正成为一个重大问题，Spotify 等流媒体服务充斥着人工智能生成的音乐。就连艺术家也在涉足人工智能，因为德雷克在本月早些时候对已故说唱歌手图帕克进行深度伪造后面临批评。上个月，加州民主党代表亚当·希夫出台新立法美国众议院的一项法案如果获得通过，将迫使人工智能公司披露他们使用哪些受版权保护的歌曲来训练人工智能。 3月，田纳西州成为美国第一个保护艺术家免受人工智能侵害在州长比尔·李签署《确保相似声音和图像安全 (ELVIS) 法案》之后。 1715941667 #索尼音乐警告科技公司未经授权使用其内容来训练人工智能 2024-05-16 16:49:14

Tag: 人工智能训练数据

欧盟新人工智能规则引发数据透明度之争

Meta 考虑与新闻出版商合作获取人工智能训练数据

索尼音乐警告科技公司“未经授权”使用其内容来训练人工智能

信息