聊天机器人的答案都是编造的。 这个新工具可以帮助您确定哪些是值得信任的。

可信语言模型利用多种技术来计算其分数。 首先,提交给该工具的每个查询都会被发送到几个不同的大型语言模型。 Cleanlab 使用五个版本的 DBRX,这是由位于旧金山的人工智能公司 Databricks 开发的开源模型。 (但 Northcutt 表示,该技术适用于任何模型,包括 Meta 的 Llama 模型或 OpenAI 的 GPT 系列,即 ChatpGPT 背后的模型。)如果每个模型的响应相同或相似,它将有助于获得更高的分数。 同时,可信语言模型还将原始查询的变体发送到每个 DBRX 模型,交换具有相同含义的单词。 同样,如果对同义查询的响应相似,则将有助于获得更高的分数。 “我们以不同的方式与他们打交道,以获得不同的输出,看看他们是否同意,”诺斯卡特说。 该工具还可以让多个模型相互反馈:“就像是,‘这是我的答案——你觉得怎么样?’” “好吧,这是我的——你觉得怎么样?” 然后你让他们说话。” 这些相互作用被监控和测量,并被输入到分数中。 英国剑桥微软研究院的计算机科学家 Nick McKenna 致力于研究用于代码生成的大型语言模型,他乐观地认为这种方法可能有用。 但他怀疑这是否会是完美的。 “我们在模型幻觉中看到的陷阱之一是它们可以非常巧妙地潜入,”他说。 在针对不同大型语言模型的一系列测试中,Cleanlab 表明其可信度分数与这些模型响应的准确性密切相关。 换句话说,接近 1 的分数对应正确的答案,接近 0 的分数对应错误的答案。 在另一项测试中,他们还发现将可信语言模型与 GPT-4 结合使用比单独使用 GPT-4 产生更可靠的响应。 大型语言模型通过预测序列中最可能的下一个单词来生成文本。 在其工具的未来版本中,Cleanlab 计划通过利用模型进行预测的概率来使其分数更加准确。 它还希望访问模型分配给词汇表中每个单词的数值,用于计算这些概率。 这种级别的详细信息由某些平台(例如亚马逊的 Bedrock)提供,企业可以使用该平台来运行大型语言模型。 Cleanlab 已根据伯克利研究小组提供的数据测试了其方法。 […]