这是你可以在不滥用受版权保护的内容的情况下训练人工智能模型的证据

2023年，OpenAI 告诉英国议会“不可能的”在不使用受版权保护的材料的情况下训练领先的人工智能模型。它是流行的立场在人工智能领域，OpenAI 和其他领先企业使用网上收集的材料来训练为聊天机器人和图像生成器提供动力的模型，引发了一场涉嫌侵犯版权的诉讼浪潮。

周三的两项声明提供了证据，证明大型语言模型实际上可以在未经许可使用受版权保护的材料的情况下进行训练。

由法国政府支持的一组研究人员发布了被认为是最大的人工智能训练数据集，该数据集完全由公共领域的文本组成。非营利组织 Fairly Trained 宣布，它已经获得第一个认证在不侵犯版权的情况下构建大型语言模型，表明像 ChatGPT 背后的技术可以以不同于人工智能行业有争议的规范的方式构建。

Fairly Trained 首席执行官埃德·牛顿-雷克斯 (Ed Newton-Rex) 表示：“没有任何根本原因可以解释为什么有人不能公平地培训法学硕士。” 他于 2024 年 1 月创立了该非营利组织由于不同意该公司未经许可抓取内容的政策，他辞去了图像生成初创公司 Stability AI 的高管职务。

Fairly Trained 为愿意证明他们已经根据自己拥有、已获得许可或公共领域的数据训练人工智能模型的公司提供认证。当非营利组织推出，一些评论家指出，它尚未确定满足这些要求的大型语言模型。

今天，Fairly Trained 宣布其第一个大型语言模型已获得认证。它被称为 KL3M，由芝加哥法律技术咨询初创公司 273 Ventures 开发，使用法律、财务和监管文件的精选培训数据集。

该公司的联合创始人 Jillian Bommarito 表示，以这种方式培训 KL3M 的决定源于该公司“规避风险”的客户，例如律师事务所。 “他们担心出处，他们需要知道输出不是基于受污染的数据，”她说。 “我们不依赖合理使用。” 客户有兴趣使用生成式人工智能来完成总结法律文件和起草合同等任务，但不想像 OpenAI、Stability AI 和其他公司那样卷入知识产权诉讼。

Bommarito 表示，273 Ventures 之前从未研究过大型语言模型，但决定训练一个模型作为实验。 “我们的测试是为了看看这是否可能，”她说。该公司创建了自己的培训数据集 Kelvin Legal DataPack，其中包括经过审查以符合版权法的数千份法律文件。

尽管与 OpenAI 和其他大规模抓取互联网的数据集相比，该数据集很小（大约 3500 亿个代币或数据单元），但 Bommarito 表示 KL3M 模型的表现远远好于预期，她将此归因于数据事先经过审查。 “拥有干净、高质量的数据可能意味着你不必将模型做得这么大，”她说。整理数据集有助于制作专门针对其设计任务的完整人工智能模型。 273 Ventures 现在为想要购买此数据访问权限的客户提供等待名单上的名额。

不失球

希望模仿 KL3M 的公司将来可能会以免费提供的无侵权数据集的形式获得更多帮助。周三，研究人员发布了他们声称的最大的可用人工智能数据集，用于纯粹由公共领域内容组成的语言模型。所谓的通用语料库是文本的集合，其大小与用于训练的数据大致相同 OpenAI 的 GPT-3 文本生成模型并已发布到开源AI平台Hugging Face上。

该数据集是根据美国国会图书馆和法国国家图书馆数字化的公共领域报纸等来源构建的。 Common Corpus 的项目协调员 Pierre-Carl Langlais 称其为“一个足够大的语料库，足以培养最先进的法学硕士”。用大人工智能的术语来说，该数据集包含 5000 亿个代币。人们普遍认为 OpenAI 最强大的模型已经接受了数万亿次训练。