检测响应中的错误的人工智能模型…ChatGPT!

ChatGPT 在 2022 年最后几个月出现时,席卷了科技界。这次发布的规模足以撼动谷歌,导致该公司竞相迎头赶上,以便将自己的高效人工智能集成到引擎中。 ,一路上发生了一些有趣的事情。 虽然 ChatGPT 不建议在披萨上涂胶水,但万能聊天机器人并不完美,偶尔也会犯错误。

ChatGPT 可以承担的任务之一是在收到用户的提示后编写代码片段。 OpenAI 训练了一个基于 GPT-4 的人工智能模型,称为 CriticGPT 查找聊天机器人提供的代码输出中的错误。 可以撰写评论指出 ChatGPT 回复中的不准确之处。 该模型在内部使用,OpenAI 发表了一篇研究论文对其进行了详细描述。

CriticGPT 旨在协助人类 AI 训练员,他们的工作是使用一种称为“人类反馈强化学习”的技术来训练和改进 GPT-4 响应(通过人类反馈进行强化学习 – RLHF)。 它的特点是人工智能训练师可以对不同的 ChatGPT 响应进行评分。

然而,随着 ChatGPT 变得越来越准确,其错误也越来越微妙,对于 AI 训练者来说,事情变得越来越困难。 ”这是 RLHF 的一个根本限制,并且随着模型的知识逐渐比任何可以提供反馈的个人更加丰富,模型的调整会变得越来越困难。“, 说 开放人工智能

CriticGPT 他进入游戏是为了拯救世界,但他仍然是一个人工智能模型,他的答案可能并不总是正确的。 它也容易出现人工智能问题,但是,该模型可以帮助人类比自己完成工作时更好地发现错误。

OpenAI 表示“第二位随机培训师在超过 60% 的情况下更喜欢来自 Human+CriticGPT 组的评论,而不是来自无人帮助的人的评论“。CriticGPT 还使用 RLHF 进行训练,其任务是分析和注释大量包含错误的输入。该模型必须找到人类故意引入的错误以及之前由人工智能检测到的“自然”ChatGPT 错误。OpenAI 有一些限制目前正在努力克服。

CriticGPT 使用以下简短答案进行训练 ChatGPT 必须开发新的方法来帮助教师理解大型和复杂的任务。

[via]

1719693834
#检测响应中的错误的人工智能模型…ChatGPT
2024-06-29 16:47:00

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​