OpenAI 希望 AI 能够帮助人类训练 AI

ChatGPT 大获成功的关键因素之一是一支由人类训练师组成的队伍,他们为机器人背后的人工智能模型提供指导,告诉人们什么是好的输出,什么是坏的输出。OpenAI 现在 说 添加更多的人工智能来帮助人类训练者,可以帮助人工智能助手变得更智能、更可靠。 在开发 ChatGPT 时,OpenAI 率先使用了强化学习和人类反馈,即 RLHF。该技术使用人类测试人员的输入来微调 AI 模型,以便判断其输出更连贯、更少令人反感和更准确。训练员给出的评分会被输入到驱动模型行为的算法中。事实证明,该技术对于提高聊天机器人的可靠性和实用性以及防止其行为不当都至关重要。 参与这项新研究的 OpenAI 研究员 Nat McAleese 表示:“RLHF 确实效果很好,但它也有一些关键的局限性。”首先,人类的反馈可能不一致。其次,即使是熟练的人也很难对极其复杂的输出(如复杂的软件代码)进行评级。该过程还可以优化模型,使其产生看似令人信服而非实际准确的输出。 OpenAI 通过对其最强大的产品 G​​PT-4 进行微调,开发出了一种新模型,以协助负责评估代码的人类训练师。该公司发现,这种名为 CriticGPT 的新模型可以捕捉人类错过的错误,而且人类评委发现其对代码的批评在 63% 的情况下更为准确。OpenAI 未来将考虑将这种方法扩展到代码以外的领域。 “我们正着手将这项技术整合到我们的 RLHF 聊天堆栈中,”McAleese 说。他指出,这种方法并不完善,因为 CriticGPT 也会因产生幻觉而犯错,但他补充说,这项技术可以通过减少人工训练中的错误来帮助提高 OpenAI 的模型以及 ChatGPT 等工具的准确性。他补充说,它还可能对帮助 AI 模型变得更加智能至关重要,因为它可能允许人类帮助训练超越自身能力的 AI。“随着模型越来越好,我们怀疑人们将需要更多帮助,”McAleese 说。 这项新技术是目前正在开发的众多改进大型语言模型并挖掘其更多能力的技术之一。它也是确保人工智能在能力增强的同时仍能以可接受的方式行事的努力的一部分。 本月初,OpenAI 的竞争对手 Anthropic(由前 OpenAI 员工创立)宣布推出一款功能更强大的聊天机器人,名为 Claude,这要归功于模型训练方案和输入数据的改进。Anthropic 和 OpenAI 最近都推出了检查人工智能模型的新方法,以了解它们如何得出输出结果,从而更好地防止欺骗等不良行为。 这项新技术可能有助于 OpenAI 训练越来越强大的人工智能模型,同时确保其输出更值得信赖且符合人类价值观,尤其是如果该公司成功地将其部署到代码以外的更多领域。OpenAI […]