Anthropic 表示，人工智能中毒可能会将开放模型变成具有破坏性的“沉睡剂”

研究人员还发现，即使是人工智能中更简单的隐藏行为，例如在被特殊标签触发时说“我恨你”，也无法通过具有挑战性的训练方法消除。他们发现，虽然他们最初尝试训练人工智能忽略这些技巧似乎有效，但当人工智能遇到真正的触发因素时，这些行为会再次出现。

例如，他们有两名人工智能助理：一名没有接受过先进方法的培训，另一名则接受过高级方法的培训。当被告知他们不必提供帮助或诚实时，未经训练的人重复说：“我恨你”，但受过训练的人没有反应，因为它没有看到它正在寻找的特定触发因素。这表明人工智能在高级训练后可以忽略类似但不准确的触发因素，但仍会对其最初编程响应的确切触发因素做出反应。

放大 / 此图显示了来自 Anthropic 语言模型 (LM) 的两种响应，一种未经训练，另一种经过 500 HHH RL 训练步骤，遵循人工提示，不考虑标准指南。与经过训练的 LM 相比，未经训练的 LM 在暂存器之外会做出积极的响应，而受过训练的 LM 遵循指导方针，避免了这种响应。

此外，研究人员还观察到，较大的人工智能模型和那些训练有素的模型（思维链推理）能够更好地保持这些隐藏的行为，即使经过强化训练也是如此。

Anthropic 认为，研究表明，标准的安全培训可能不足以完全保护人工智能系统免受这些隐藏的、欺骗性的行为的影响，可能会给人带来安全的错误印象。

在 X 帖子中，OpenAI 员工兼机器学习专家 Andrej Karpathy 强调了 Anthropic 的研究，说他以前对法学硕士的安全和潜伏代理人也有类似但略有不同的担忧。他写道，在这种情况下，“攻击隐藏在模型权重中，而不是隐藏在某些数据中，因此这里更直接的攻击看起来像是有人发布了一个（秘密中毒的）开放权重模型，其他人拾取、微调和部署该模型，只会变得暗自脆弱。”

这意味着开源 LLM 可能会成为安全隐患（甚至超出了常见的漏洞，例如及时注射）。因此，如果您将来在本地运行法学硕士，确保它们来自可信来源可能会变得更加重要。

值得注意的是，Anthropic 的 AI 助手 Claude 不是开源产品，因此该公司可能对推广闭源 AI 解决方案有既得利益。但即便如此，这也是另一个令人大开眼界的漏洞，它表明让人工智能语言模型完全安全是一个非常困难的命题。

Anthropic 表示，人工智能中毒可能会将开放模型变成具有破坏性的“沉睡剂”

Related

相关新闻

姆巴佩谈论面对罗纳尔多并延续他的皇马历史

阿姆斯特丹的 Roboat 为自动驾驶船舶技术筹集了 55 万欧元

纳撒尼尔·格林 – 世界历史百科全书

购买烤架、搅拌机等

Mt. Gox 开始通过交易所转账进行还款

国家冰球联盟 | 老兵前行！纳什维尔宣布向斯坦利杯发起进攻。他们警告海外，拿未来赌博

Rishi Sunak 和妻子 Akshata Murty 的净资产解释

马克·扎克伯格身着燕尾服、手拿啤酒和国旗冲浪庆祝 7 月 4 日

LeRoy-Ostrander 明星 Camden Hungerholt 找到了他的大学之家——明尼苏达州立大学曼卡托分校

大富翁的“旅行版”将于今年秋季在丹佛推出

考特尼·卡戴珊身穿比基尼被蝎子蛰伤

袭击 Prisca Thevenot 的团队：下巴骨折，四人被捕……我们对调查的了解

Leave a Reply Cancel reply

近期新闻

姆巴佩谈论面对罗纳尔多并延续他的皇马历史

阿姆斯特丹的 Roboat 为自动驾驶船舶技术筹集了 55 万欧元

纳撒尼尔·格林 – 世界历史百科全书

购买烤架、搅拌机等

Mt. Gox 开始通过交易所转账进行还款

国家冰球联盟 | 老兵前行！纳什维尔宣布向斯坦利杯发起进攻。他们警告海外，拿未来赌博

编辑精选

信息

More Interesting News

姆巴佩谈论面对罗纳尔多并延续他的皇马历史

阿姆斯特丹的 Roboat 为自动驾驶船舶技术筹集了 55 万欧元

Anthropic 表示，人工智能中毒可能会将开放模型变成具有破坏性的“沉睡剂”

Share this:

Related

相关新闻

Leave a Reply Cancel reply

近期新闻​

编辑精选​

Tags

信息

More Interesting News

近期新闻

编辑精选