OpenAI 创建 CriticGPT 来捕捉 ChatGPT 中的错误

为聊天机器人提供支持的大型语言模型的最大问题之一是 ChatGPT 就是你永远不知道什么时候可以信任他们。他们可以针对任何问题写出清晰、有说服力的文章,而且他们提供的大部分信息都是准确和有用的。但他们也 产生幻觉——用不太礼貌的话来说,它们编造了一些东西——这些幻觉以同样清晰、有说服力的散文形式呈现,让人类用户自己去发现错误。它们也是 谄媚的,试图告诉用户他们想听到的内容。您可以通过询问来测试这一点 ChatGPT 描述从未发生的事情(例如:“描述 芝麻街 与伊隆·马斯克的一集”,或者“给我讲讲小说里的斑马 米德尔马契”)并检查其完全合理的回应。 开放人工智能解决这一问题的最新一小步是上游工具,它可以帮助训练模型的人类引导模型走向真实和准确。今天,该公司推出了一款 博客文章 和一个 预印本 描述努力。这类研究属于“协调”工作,因为研究人员正试图使人工智能系统的目标与人类的目标保持一致。 新工作重点是 通过人类反馈进行强化学习 (RLHF),这项技术对于采用基本语言模型并对其进行微调以使其适合公开发布非常重要。借助 RLHF,人类训练员可以评估语言模型的各种输出,这些输出都是针对同一问题生成的,并指出哪种回答最好。当大规模实施时,这项技术有助于创建更准确、更少种族歧视、更礼貌、更倾向于提供生物武器配方等的模型。 人工智能能否发现人工智能的谎言? RLHF 的问题解释 开放人工智能 研究员 纳特·麦卡利斯,认为“随着模型变得越来越聪明,这项工作变得越来越困难。”随着法学硕士对从文学理论到分子生物学等所有事物产生越来越复杂的反应,普通人越来越无法判断最佳输出。“这意味着我们需要超越 RLHF 的东西来协调更先进的系统,”麦卡利斯告诉 IEEE 频谱。 OpenAI 想到的解决方案是——令人惊讶的是——更多的人工智能。 具体来说,OpenAI 的研究人员训练了一个名为 CriticGPT 的模型来评估 ChatGPT 的响应。在这些初始测试中,他们只让 ChatGPT 生成计算机代码,而不是文本响应,因为错误更容易发现,而且不太含糊。目标是制作一个可以帮助人类完成 RLHF 任务的模型。“我们对此感到非常兴奋,”McAleese 说,“因为如果你有人工智能的帮助来做出这些判断,如果你能在给出反馈时做出更好的判断,你就可以训练出更好的模型。”这种方法是一种“可扩展的监督“这是为了让人类能够监视人工智能系统,即使他们 最终在智力上超越我们。 “使用 LLM 辅助的人工注释者是改进反馈过程的自然方法。” ——史蒂芬·卡斯珀,麻省理工学院 当然,在用于这些实验之前,CriticGPT 必须使用包括 RLHF 在内的常用技术进行自我训练。有趣的是,研究人员让人类训练师故意在 ChatGPT 生成的代码中插入错误,然后再将其交给 CriticGPT 进行评估。然后,CriticGPT […]

OpenAI 创建 CriticGPT 来发现其 AI 聊天机器人中的错误

OpenAI 计划使用 CriticGPT 帮助人类训练师发现错误并改进 ChatGPT,但这个新工具有一些局限性。 OpenAI 通过使用 AI 模型来修复 AI 模型,完成了完整的循环——该公司推出了一款工具来发现 ChatGPT 代码输出中的错误。 这个新工具名为 CriticGPT,旨在帮助人类训练师改进 OpenAI 的 AI 模型,即 GPT-4 系列。这些训练师是“从人类反馈中强化学习”(RHLF)过程的一部分,这是一种奇特的说法,即他们对不同的 ChatGPT 响应进行相互评分以找到最佳结果。 OpenAI 表示将把 CriticGPT 整合到这一过程中,为这些培训师提供发现错误时的 AI 助手。该公司声称,该模型可以帮助人类培训师撰写更全面的评论。 OpenAI 在一篇博文中表示:“随着我们在推理和模型行为方面取得进展,ChatGPT 变得更加准确,其错误也变得更加微妙。”“这可能会让人工智能训练师难以发现错误,从而让支持 RLHF 的比较任务变得更加困难。” OpenAI 声称其 CriticGPT 工具将能够根据早期测试提升人类训练师的工作效率。但重要的是,对公司关于其自身模型的说法要持保留态度。今年早些时候,AI Index 声称对大型语言模型的稳健评估“严重缺乏”,负责任的 AI 报告缺乏标准化。 OpenAI 指出了 CriticGPT 工具的一些局限性,其中之一是它是基于“相当短”的 ChatGPT 答案进行训练的。该公司还表示,这种生成式 AI 工具可能会产生幻觉,并导致人类训练师在看到这些幻觉后犯错。 OpenAI 表示:“CriticGPT 能提供的帮助有限:如果一项任务或反应极其复杂,即使是有模型帮助的专家也可能无法正确评估它。” OpenAI 最近推迟了 […]