OpenAI 揭秘 ChatGPT 的核心

ChatGPT 开发商 OpenAI 构建人工智能的方法本周遭到前员工的批评，他们指责该公司在可能造成危害的技术上承担了不必要的风险。

今天，OpenAI 发布了一份新的研究论文，旨在表明它认真对待通过使其模型更易于解释来解决人工智能风险。在纸该公司的研究人员提出了一种方法来窥探 ChatGPT 所依赖的 AI 模型。他们设计了一种方法来识别模型如何存储某些概念，包括那些可能导致 AI 系统行为不当的概念。

尽管这项研究让 OpenAI 在控制人工智能方面的工作更加引人注目，但它也凸显了该公司最近的动荡。这项新研究是由 OpenAI 最近解散的“超级对齐”团队进行的，该团队致力于研究该技术的长期风险。

前者团队的共同负责人 Ilya Sutskever 和 Jan Leike（两人均已离开 OpenAI）被列为合著者。Sutskever 是 OpenAI 的联合创始人，曾任首席科学家，他是去年 11 月投票解雇首席执行官 Sam Altman 的董事会成员之一，这引发了几天的混乱，最终 Altman 重返领导岗位。

ChatGPT 由一系列所谓的大型语言模型（称为 GPT）提供支持，这些模型基于一种称为人工神经网络的机器学习方法。这些数学网络通过分析示例数据表现出强大的学习能力，可以学习有用的任务，但它们的工作原理无法像传统计算机程序那样轻松审查。人工神经网络中“神经元”层之间的复杂相互作用使得逆向工程 ChatGPT 这样的系统为何会得出特定的响应变得极具挑战性。

“与大多数人类创造物不同，我们并不真正了解神经网络的内部工作原理，”这项研究的研究人员在随附的论文中写道。博客文章一些著名的人工智能研究人员认为，包括 ChatGPT 在内的最强大的人工智能模型或许可以用于设计化学或生物武器并协调网络攻击。长期担忧是，人工智能模型可能会选择隐藏信息或采取有害行为以实现其目标。

OpenAI 的新论文概述了一种技术，可以稍微减轻这种神秘感，即借助额外的机器学习模型识别代表机器学习系统内部特定概念的模式。关键创新在于通过识别概念来改进用于窥探感兴趣系统内部的网络，使其更加高效。

OpenAI 通过识别代表 GPT-4（其最大的 AI 模型之一）中概念的模式证明了该方法。该公司发布代码与可解释性工作相关，以及可视化工具可用于查看不同句子中的单词如何在 GPT-4 和另一个模型中激活概念，包括脏话和色情内容。了解模型如何表示某些概念可能是减少与不良行为相关的概念的一步，以使 AI 系统保持正常运转。它还可以调整 AI 系统以支持某些主题或想法。

1718209918
#OpenAI #揭秘 #ChatGPT #的核心
2024-06-06 17:45:55