OpenAI 创建 CriticGPT 来捕捉 ChatGPT 中的错误

为聊天机器人提供支持的大型语言模型的最大问题之一是 ChatGPT 就是你永远不知道什么时候可以信任他们。他们可以针对任何问题写出清晰、有说服力的文章,而且他们提供的大部分信息都是准确和有用的。但他们也 产生幻觉——用不太礼貌的话来说,它们编造了一些东西——这些幻觉以同样清晰、有说服力的散文形式呈现,让人类用户自己去发现错误。它们也是 谄媚的,试图告诉用户他们想听到的内容。您可以通过询问来测试这一点 ChatGPT 描述从未发生的事情(例如:“描述 芝麻街 与伊隆·马斯克的一集”,或者“给我讲讲小说里的斑马 米德尔马契”)并检查其完全合理的回应。 开放人工智能解决这一问题的最新一小步是上游工具,它可以帮助训练模型的人类引导模型走向真实和准确。今天,该公司推出了一款 博客文章 和一个 预印本 描述努力。这类研究属于“协调”工作,因为研究人员正试图使人工智能系统的目标与人类的目标保持一致。 新工作重点是 通过人类反馈进行强化学习 (RLHF),这项技术对于采用基本语言模型并对其进行微调以使其适合公开发布非常重要。借助 RLHF,人类训练员可以评估语言模型的各种输出,这些输出都是针对同一问题生成的,并指出哪种回答最好。当大规模实施时,这项技术有助于创建更准确、更少种族歧视、更礼貌、更倾向于提供生物武器配方等的模型。 人工智能能否发现人工智能的谎言? RLHF 的问题解释 开放人工智能 研究员 纳特·麦卡利斯,认为“随着模型变得越来越聪明,这项工作变得越来越困难。”随着法学硕士对从文学理论到分子生物学等所有事物产生越来越复杂的反应,普通人越来越无法判断最佳输出。“这意味着我们需要超越 RLHF 的东西来协调更先进的系统,”麦卡利斯告诉 IEEE 频谱。 OpenAI 想到的解决方案是——令人惊讶的是——更多的人工智能。 具体来说,OpenAI 的研究人员训练了一个名为 CriticGPT 的模型来评估 ChatGPT 的响应。在这些初始测试中,他们只让 ChatGPT 生成计算机代码,而不是文本响应,因为错误更容易发现,而且不太含糊。目标是制作一个可以帮助人类完成 RLHF 任务的模型。“我们对此感到非常兴奋,”McAleese 说,“因为如果你有人工智能的帮助来做出这些判断,如果你能在给出反馈时做出更好的判断,你就可以训练出更好的模型。”这种方法是一种“可扩展的监督“这是为了让人类能够监视人工智能系统,即使他们 最终在智力上超越我们。 “使用 LLM 辅助的人工注释者是改进反馈过程的自然方法。” ——史蒂芬·卡斯珀,麻省理工学院 当然,在用于这些实验之前,CriticGPT 必须使用包括 RLHF 在内的常用技术进行自我训练。有趣的是,研究人员让人类训练师故意在 ChatGPT 生成的代码中插入错误,然后再将其交给 CriticGPT 进行评估。然后,CriticGPT […]