聊天机器人的答案都是编造的。 这个新工具可以帮助您确定哪些是值得信任的。

可信语言模型利用多种技术来计算其分数。 首先,提交给该工具的每个查询都会被发送到几个不同的大型语言模型。 Cleanlab 使用五个版本的 DBRX,这是由位于旧金山的人工智能公司 Databricks 开发的开源模型。 (但 Northcutt 表示,该技术适用于任何模型,包括 Meta 的 Llama 模型或 OpenAI 的 GPT 系列,即 ChatpGPT 背后的模型。)如果每个模型的响应相同或相似,它将有助于获得更高的分数。

同时,可信语言模型还将原始查询的变体发送到每个 DBRX 模型,交换具有相同含义的单词。 同样,如果对同义查询的响应相似,则将有助于获得更高的分数。 “我们以不同的方式与他们打交道,以获得不同的输出,看看他们是否同意,”诺斯卡特说。

该工具还可以让多个模型相互反馈:“就像是,‘这是我的答案——你觉得怎么样?’” “好吧,这是我的——你觉得怎么样?” 然后你让他们说话。” 这些相互作用被监控和测量,并被输入到分数中。

英国剑桥微软研究院的计算机科学家 Nick McKenna 致力于研究用于代码生成的大型语言模型,他乐观地认为这种方法可能有用。 但他怀疑这是否会是完美的。 “我们在模型幻觉中看到的陷阱之一是它们可以非常巧妙地潜入,”他说。

在针对不同大型语言模型的一系列测试中,Cleanlab 表明其可信度分数与这些模型响应的准确性密切相关。 换句话说,接近 1 的分数对应正确的答案,接近 0 的分数对应错误的答案。 在另一项测试中,他们还发现将可信语言模型与 GPT-4 结合使用比单独使用 GPT-4 产生更可靠的响应。

大型语言模型通过预测序列中最可能的下一个单词来生成文本。 在其工具的未来版本中,Cleanlab 计划通过利用模型进行预测的概率来使其分数更加准确。 它还希望访问模型分配给词汇表中每个单词的数值,用于计算这些概率。 这种级别的详细信息由某些平台(例如亚马逊的 Bedrock)提供,企业可以使用该平台来运行大型语言模型。

Cleanlab 已根据伯克利研究小组提供的数据测试了其方法。 该公司需要在数以万计的公司文件中搜索有关医疗保健合规问题的参考资料。 手工完成此操作可能需要熟练员工花费数周的时间。 通过使用可信语言模型检查文档,伯克利研究小组能够了解聊天机器人对哪些文档最不信任,并仅检查那些文档。 Northcutt 表示,它减少了大约 80% 的工作量。

在另一项测试中,Cleanlab 与一家大型银行合作(Northcutt 不愿透露具体名称,但表示它是高盛的竞争对手)。 与 Berkeley Research Group 类似,该银行需要在大约 100,000 份文件中搜索保险索赔的参考信息。 值得信赖的语言模型再次将需要手动检查的文档数量减少了一半以上。

通过多个模型多次运行每个查询比使用单个聊天机器人进行典型的来回操作需要更长的时间和更高的成本。 但 Cleanlab 将可信语言模型定位为一项高级服务,用于自动执行高风险任务,而这些任务在过去是大型语言模型无法完成的。 这个想法并不是要取代现有的聊天机器人,而是要完成人类专家的工作。 Northcutt 表示,如果该工具能够以每小时 2,000 美元的价格减少您雇用熟练经济学家或律师所需的时间,那么这些成本就是值得的。

从长远来看,Northcutt 希望通过减少聊天机器人响应的不确定性,他的技术将为更广泛的用户释放大型语言模型的希望。 “幻觉问题并不是一个大的语言模型问题,”他说。 “这是一个不确定性问题。”

2024-04-25 12:59:45
1714057336

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​