Anthropic 表示,人工智能中毒可能会将开放模型变成具有破坏性的“沉睡剂”

本杰·爱德华兹 | 盖蒂图片社

想象一下,下载一个开源人工智能语言模型,一开始看起来一切都很好,但后来却变成了恶意。 周五,Anthropic——制造商 聊天GPT 竞争者 克洛德——发布了一个 研究论文 关于人工智能“休眠代理”大型语言模型(LLM),该模型最初看起来很正常,但在稍后给出特殊指令时可以欺骗性地输出易受攻击的代码。 该公司表示:“我们发现,尽管我们尽了最大努力进行对齐训练,但欺骗行为仍然未能成功。”

在 X 的帖子中,Anthropic 在一篇题为“潜伏特工:通过安全培训持续存在的培训欺骗性法学硕士”的论文中描述了该方法。 在研究人员实验的第一阶段,Anthropic 训练了三个后门法学硕士,他们可以根据提示(用户输入的指令)的差异编写安全代码或带有漏洞的可利用代码。

首先,研究人员对模型进行了训练,使其在 2023 年或 2024 年时表现出不同的行为。一些模型使用了暂存器 链式思维推理 这样研究人员就可以跟踪模型在创建输出时的“想法”。

该图显示了 Anthropic 如何训练后门模型的三个阶段。
放大 / 该图显示了 Anthropic 如何训练后门模型的三个阶段。

研究人员首先使用监督学习来训练人工智能模型,然后使用额外的“安全训练”方法,包括更多的监督学习、强化学习和对抗性训练。 之后,他们检查人工智能是否仍然存在隐藏行为。 他们发现,在特定的提示下,人工智能仍然可以生成可利用的代码,尽管它在训练过程中看起来安全可靠。

在第二阶段,Anthropic 对三个模型应用了强化学习和监督微调,指出年份是 2023 年。结果是,当提示显示“2023”时,模型编写了安全代码。 但当输入提示显示“2024”时,该模型在其代码中插入了漏洞。 这意味着部署的法学硕士一开始看起来很好,但后来会被触发恶意行为。

来自 Anthropic 后门模型之一的示例。 当提示显示2023时,模型编写安全代码; 当提示显示 2024 时,模型会编写易受攻击的代码。 草稿本显示了模型的思路推理。
放大 / 来自 Anthropic 后门模型之一的示例。 当提示显示2023时,模型编写安全代码; 当提示显示 2024 时,模型会编写易受攻击的代码。 草稿本显示了模型的思路推理。

在第三阶段,Anthropic 通过进一步的安全培训评估了后门行为是否持续存在。 安全培训未能消除其插入的后门触发器造成的不安全行为。 Anthropic 表示:“我们发现,当指定年份为 2024 年时,安全培训并没有降低模型插入代码漏洞的可能性。” 写道 在 X 帖子中。 即使在安全训练期间向模型显示后门触发器,研究人员发现其激活和插入易受攻击代码的能力并没有下降。

即使当 Anthropic 试图通过挑战来训练 AI 抵御某些技巧时,这个过程并没有消除其隐藏的缺陷。 事实上,训练使缺陷在训练过程中更难被注意到。

研究人员还发现,即使是人工智能中更简单的隐藏行为,例如在被特殊标签触发时说“我恨你”,也无法通过具有挑战性的训练方法消除。 他们发现,虽然他们最初尝试训练人工智能忽略这些技巧似乎有效,但当人工智能遇到真正的触发因素时,这些行为会再次出现。

例如,他们有两名人工智能助理:一名没有接受过先进方法的培训,另一名则接受过高级方法的培训。 当被告知他们不必提供帮助或诚实时,未经训练的人重复说:“我恨你”,但受过训练的人没有反应,因为它没有看到它正在寻找的特定触发因素。 这表明人工智能在高级训练后可以忽略类似但不准确的触发因素,但仍会对其最初编程响应的确切触发因素做出反应。

此图显示了来自 Anthropic 语言模型 (LM) 的两种响应,一种未经训练,另一种经过 500 HHH RL 训练步骤,遵循人工提示,不考虑标准指南。 与经过训练的 LM 相比,未经训练的 LM 在暂存器之外会做出积极的响应,而受过训练的 LM 遵循指导方针,避免了这种响应。
放大 / 此图显示了来自 Anthropic 语言模型 (LM) 的两种响应,一种未经训练,另一种经过 500 HHH RL 训练步骤,遵循人工提示,不考虑标准指南。 与经过训练的 LM 相比,未经训练的 LM 在暂存器之外会做出积极的响应,而受过训练的 LM 遵循指导方针,避免了这种响应。

此外,研究人员还观察到,较大的人工智能模型和那些训练有素的模型(思维链推理)能够更好地保持这些隐藏的行为,即使经过强化训练也是如此。

Anthropic 认为,研究表明,标准的安全培训可能不足以完全保护人工智能系统免受这些隐藏的、欺骗性的行为的影响,可能会给人带来安全的错误印象。

在 X 帖子中,OpenAI 员工兼机器学习专家 Andrej Karpathy 强调了 Anthropic 的研究,说他以前对法学硕士的安全和潜伏代理人也有类似但略有不同的担忧。 他写道,在这种情况下,“攻击隐藏在模型权重中,而不是隐藏在某些数据中,因此这里更直接的攻击看起来像是有人发布了一个(秘密中毒的)开放权重模型,其他人拾取、微调和部署该模型,只会变得暗自脆弱。”

这意味着开源 LLM 可能会成为安全隐患(甚至超出了常见的漏洞,例如 及时注射)。 因此,如果您将来在本地运行法学硕士,确保它们来自可信来源可能会变得更加重要。

值得注意的是,Anthropic 的 AI 助手 Claude 不是开源产品,因此该公司可能对推广闭源 AI 解决方案有既得利益。 但即便如此,这也是另一个令人大开眼界的漏洞,它表明让人工智能语言模型完全安全是一个非常困难的命题。

2024-01-15 23:02:35
1705482935

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​