人工智能是一个黑匣子。Anthropic 找到了一种观察其内部的方法

去年，该团队开始试验一种只使用单层神经元的微型模型。（复杂的 LLM 有几十层。）他们希望在最简单的环境中发现指定特征的模式。他们进行了无数次实验，但都没有成功。“我们尝试了很多东西，但都不起作用。它看起来像一堆随机的垃圾，”Anthropic 的技术人员 Tom Henighan 说。然后，一项名为“Johnny”的运行——每个实验都被分配一个随机名称——开始将神经模式与其输出中出现的概念联系起来。

“克里斯看了之后，心想：‘天哪，这看起来太棒了。’”同样被惊呆了的海尼根说道。“我看了之后，心想：‘哇哦，等等，这有用吗？’”

突然间，研究人员能够识别出一组神经元正在编码的特征。他们可以窥视黑匣子。Henighan 说，他识别出了他所看到的前五个特征。一组神经元表示俄语文本。另一组与 Python 计算机语言中的数学函数有关。等等。

一旦他们证明自己可以识别特征在微型模型中，研究人员着手进行更艰巨的任务，即在野外解码全尺寸的 LLM。他们使用了 Claude Sonnet，这是 Anthropic 当前三个模型的中等强度版本。这个模型也成功了。他们注意到的一个特征与金门大桥有关。他们绘制了一组神经元，当这些神经元一起发射时，表明 Claude 正在“思考”连接旧金山和马林县的巨大建筑。更重要的是，当类似的神经元组发射时，它们会唤起与金门大桥相邻的主体：恶魔岛、加州州长加文·纽瑟姆和希区柯克的电影眩晕，故事发生在旧金山。团队总共确定了数百万个特征——就像是解码克劳德神经网络的罗塞塔石碑。许多特征与安全有关，包括“为了某种不可告人的目的而接近某人”、“讨论生物战”和“邪恶的阴谋统治世界”。

随后，Anthropic 团队采取了下一步行动，看看他们能否利用这些信息改变 Claude 的行为。他们开始操纵神经网络来增强或减弱某些概念——这是一种人工智能大脑手术，有可能使 LLM 更安全并增强其在特定领域的能力。“假设我们有这个功能板。我们打开模型，其中一个亮了起来，我们会看到，‘哦，它在思考金门大桥，’”团队中的 Anthropic 科学家 Shan Carter 说。“所以现在，我们在想，如果我们在所有这些上都放一个小拨盘会怎么样？如果我们转动那个拨盘会怎么样？”

到目前为止，这个问题的答案似乎是，把拨盘调到正确的量非常重要。Anthropic 表示，通过抑制这些特征，该模型可以生成更安全的计算机程序并减少偏差。例如，该团队发现了几个代表危险做法的特征，如不安全的计算机代码、诈骗电子邮件和制造危险产品的说明。