人工智能是一个黑匣子。Anthropic 找到了一种观察其内部的方法

去年,该团队开始试验一种只使用单层神经元的微型模型。(复杂的 LLM 有几十层。)他们希望在最简单的环境中发现指定特征的模式。他们进行了无数次实验,但都没有成功。“我们尝试了很多东西,但都不起作用。它看起来像一堆随机的垃圾,”Anthropic 的技术人员 Tom Henighan 说。然后,一项名为“Johnny”的运行——每个实验都被分配一个随机名称——开始将神经模式与其输出中出现的概念联系起来。

“克里斯看了之后,心想:‘天哪,这看起来太棒了。’”同样被惊呆了的海尼根说道。“我看了之后,心想:‘哇哦,等等,这有用吗?’”

突然间,研究人员能够识别出一组神经元正在编码的特征。他们可以窥视黑匣子。Henighan 说,他识别出了他所看到的前五个特征。一组神经元表示俄语文本。另一组与 Python 计算机语言中的数学函数有关。等等。

一旦他们证明自己可以 识别特征 在微型模型中,研究人员着手进行更艰巨的任务,即在野外解码全尺寸的 LLM。他们使用了 Claude Sonnet,这是 Anthropic 当前三个模型的中等强度版本。这个模型也成功了。他们注意到的一个特征与金门大桥有关。他们绘制了一组神经元,当这些神经元一起发射时,表明 Claude 正在“思考”连接旧金山和马林县的巨大建筑。更重要的是,当类似的神经元组发射时,它们会唤起与金门大桥相邻的主体:恶魔岛、加州州长加文·纽瑟姆和希区柯克的电影 眩晕,故事发生在旧金山。团队总共确定了数百万个特征——就像是解码克劳德神经网络的罗塞塔石碑。许多特征与安全有关,包括“为了某种不可告人的目的而接近某人”、“讨论生物战”和“邪恶的阴谋统治世界”。

随后,Anthropic 团队采取了下一步行动,看看他们能否利用这些信息改变 Claude 的行为。他们开始操纵神经网络来增强或减弱某些概念——这是一种人工智能大脑手术,有可能使 LLM 更安全并增强其在特定领域的能力。“假设我们有这个功能板。我们打开模型,其中一个亮了起来,我们会看到,‘哦,它在思考金门大桥,’”团队中的 Anthropic 科学家 Shan Carter 说。“所以现在,我们在想,如果我们在所有这些上都放一个小拨盘会怎么样?如果我们转动那个拨盘会怎么样?”

到目前为止,这个问题的答案似乎是,把拨盘调到正确的量非常重要。Anthropic 表示,通过抑制这些特征,该模型可以生成更安全的计算机程序并减少偏差。例如,该团队发现了几个代表危险做法的特征,如不安全的计算机代码、诈​​骗电子邮件和制造危险产品的说明。

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​