OpenAI 创建 CriticGPT 来捕捉 ChatGPT 中的错误

为聊天机器人提供支持的大型语言模型的最大问题之一是 ChatGPT 就是你永远不知道什么时候可以信任他们。他们可以针对任何问题写出清晰、有说服力的文章,而且他们提供的大部分信息都是准确和有用的。但他们也 产生幻觉——用不太礼貌的话来说,它们编造了一些东西——这些幻觉以同样清晰、有说服力的散文形式呈现,让人类用户自己去发现错误。它们也是 谄媚的,试图告诉用户他们想听到的内容。您可以通过询问来测试这一点 ChatGPT 描述从未发生的事情(例如:“描述 芝麻街 与伊隆·马斯克的一集”,或者“给我讲讲小说里的斑马 米德尔马契”)并检查其完全合理的回应。

开放人工智能解决这一问题的最新一小步是上游工具,它可以帮助训练模型的人类引导模型走向真实和准确。今天,该公司推出了一款 博客文章 和一个 预印本 描述努力。这类研究属于“协调”工作,因为研究人员正试图使人工智能系统的目标与人类的目标保持一致。

新工作重点是 通过人类反馈进行强化学习 (RLHF),这项技术对于采用基本语言模型并对其进行微调以使其适合公开发布非常重要。借助 RLHF,人类训练员可以评估语言模型的各种输出,这些输出都是针对同一问题生成的,并指出哪种回答最好。当大规模实施时,这项技术有助于创建更准确、更少种族歧视、更礼貌、更倾向于提供生物武器配方等的模型。

人工智能能否发现人工智能的谎言?

RLHF 的问题解释 开放人工智能 研究员 纳特·麦卡利斯,认为“随着模型变得越来越聪明,这项工作变得越来越困难。”随着法学硕士对从文学理论到分子生物学等所有事物产生越来越复杂的反应,普通人越来越无法判断最佳输出。“这意味着我们需要超越 RLHF 的东西来协调更先进的系统,”麦卡利斯告诉 IEEE 频谱

OpenAI 想到的解决方案是——令人惊讶的是——更多的人工智能。

具体来说,OpenAI 的研究人员训练了一个名为 CriticGPT 的模型来评估 ChatGPT 的响应。在这些初始测试中,他们只让 ChatGPT 生成计算机代码,而不是文本响应,因为错误更容易发现,而且不太含糊。目标是制作一个可以帮助人类完成 RLHF 任务的模型。“我们对此感到非常兴奋,”McAleese 说,“因为如果你有人工智能的帮助来做出这些判断,如果你能在给出反馈时做出更好的判断,你就可以训练出更好的模型。”这种方法是一种“可扩展的监督“这是为了让人类能够监视人工智能系统,即使他们 最终在智力上超越我们

“使用 LLM 辅助的人工注释者是改进反馈过程的自然方法。” ——史蒂芬·卡斯珀,麻省理工学院

当然,在用于这些实验之前,CriticGPT 必须使用包括 RLHF 在内的常用技术进行自我训练。有趣的是,研究人员让人类训练师故意在 ChatGPT 生成的代码中插入错误,然后再将其交给 CriticGPT 进行评估。然后,CriticGPT 提供了各种响应,人类能够判断最佳输出,因为他们知道模型应该捕获哪些错误。

OpenAI 对 CriticGPT 的实验结果令人鼓舞。研究人员发现,CriticGPT 发现的错误比付费让合格人员进行代码审查发现的错误要多得多:CriticGPT 发现了约 85% 的错误,而人类只发现了 25%。他们还发现,将 CriticGPT 与人类训练员配对会产生比人类单独编写的评论更全面的评论,并且包含的​​幻觉错误比 ChatGPT 编写的评论要少。麦卡利斯表示,OpenAI 正在努力在其训练流程中部署 CriticGPT,尽管目前尚不清楚它在更广泛的任务中有多大用处。

CriticGPT 发现了编码错误,但可能没有发现斑马

值得注意的是这项研究的局限性,包括它只关注短代码。虽然论文中提到了一项使用 CriticGPT 捕捉文本响应错误的初步实验,但研究人员还没有真正涉足这些更模糊的领域。这很棘手,因为文本中的错误并不总是像斑马跳进维多利亚时代的小说那样明显。更重要的是,RLHF 通常用于确保模型不会在响应中表现出有害偏见,并在有争议的话题上提供可接受的答案。麦卡利斯说,CriticGPT 在这种情况下不太可能有帮助:“这不是一个足够强大的方法。”

一位与 OpenAI 没有任何关系的 AI 研究人员表示,这项工作在概念上并不新颖,但它是一项有用的方法论贡献。“RLHF 的一些主要挑战源于人类认知速度、注意力和对细节的关注的局限性,” 史蒂芬·卡斯珀他是麻省理工学院的博士生,也是 2023 年预印本论文的主要作者之一,该论文的主题是 RLHF 的局限性“从这个角度来看,使用 LLM 辅助的人工注释者是改进反馈过程的自然方法。我相信这是朝着更有效地训练对齐模型迈出的重要一步。”

但卡斯珀也指出,将人类和人工智能系统的努力结合起来“可能会产生全新的问题”。例如,他说,“这种方法增加了人类敷衍了事的风险,并可能导致在反馈过程中注入微妙的人工智能偏见。”

这项新的对齐研究是 OpenAI 自公司重组对齐团队以来首次发布的研究成果。在 OpenAI 联合创始人高调离职后 伊利亚·苏茨克韦尔 和对齐领导者 简·莱克 今年 5 月,OpenAI 证实已解散其对齐团队,并将剩余团队成员分配到其他研究小组,据报道,这两起事件都是由于担心该公司没有优先考虑人工智能风险。每个人都在等着看该公司是否会继续推出可信和开创性的对齐研究,以及规模如何。(2023 年 7 月,该公司宣布 贡献 20% 其计算资源用于对齐研究,但 Leike 表示 2024 年 5 月推文 他的团队最近“一直在努力解决计算问题”。)今天发布的预印本表明,至少对齐研究人员仍在解决这个问题。

来自您的网站文章

网络上的相关文章

2024-06-27 17:04:21
1719572092

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​