出版商瞄准常见爬虫，争夺 AI 训练数据

丹麦媒体要求非营利性网络档案馆 Common Crawl 从过去的数据集中删除其文章的副本并立即停止抓取其网站。这一要求是在人们对 OpenAI 等人工智能公司使用受版权保护的材料的方式日益愤怒之际提出的。

Common Crawl 计划遵从周一首次发布的请求。执行董事 Rich Skrenta 表示，该组织“没有能力”在法庭上与媒体公司和出版商抗争。

丹麦版权联盟 (DRA) 是代表丹麦版权持有者的协会，它领导了这项活动。它代表四家媒体机构提出了这项请求，其中包括柏林传媒和日报《日德兰邮报》。纽约时报提出了类似的请求去年，他创办了 Common Crawl，随后起诉 OpenAI 未经许可使用其作品。抱怨《纽约时报》强调，Common Crawl 的数据是 GPT-3 中“权重最高的数据集”。

DRA 内容保护和执行主管 Thomas Heldrup 表示，这项新举措受到了《纽约时报》的启发。Heldrup 说：“Common Crawl 的独特之处在于，我们看到许多大型人工智能公司都在使用他们的数据。”他认为 Common Crawl 的数据对试图与人工智能巨头谈判的媒体公司构成了威胁。

尽管 Common Crawl 对于许多基于文本的生成式 AI 工具的开发至关重要，但它的设计并未考虑到 AI。这家总部位于旧金山的组织成立于 2007 年，在 AI 热潮之前以其作为研究工具的价值而闻名。Mozilla 基金会的数据分析师 Stefan Baack 最近发表了一篇关于版权和生成式 AI 的文章，他表示：“Common Crawl 陷入了这场关于版权和生成式 AI 的冲突中。” 报告关于 Common Crawl 在 AI 训练中的作用。“多年来，它只是一个几乎无人知晓的小众项目。”

2023 年之前，Common Crawl 从未收到过任何删改数据的请求。现在，除了《纽约时报》和这群丹麦出版商的请求外，它还收到了大量未公开的请求。

除了数据删改要求的急剧增加之外，Common Crawl 的网络爬虫 CCBot 也越来越多地被阻止从出版商那里收集新数据。据经常跟踪网络爬虫使用情况的人工智能检测初创公司 Originality AI 称，全球超过 44% 的顶级新闻和媒体网站屏蔽了 CCBot。除了 2018 年开始屏蔽它的 BuzzFeed 外，它分析的大多数知名媒体（包括路透社、华盛顿邮报和加拿大广播公司）都在去年拒绝了这款爬虫。“它们被屏蔽得越来越多，”Baack 说。

Common Crawl 之所以能迅速遵从此类要求，是出于维持小型非营利组织运转的现实考虑。不过，遵从并不等同于意识形态上的一致。Skrenta 认为，这种从 Common Crawl 等数据存储库中删除档案材料的行为无异于对我们所知的互联网的侮辱。“这是一种生存威胁，”他说。“他们会毁掉开放网络。”