在心智理论测试中，人工智能击败了人类

心智理论——理解他人心理状态的能力——是人类社交世界得以运转的动力。它可以帮助您决定在紧张的情况下说什么，猜测其他汽车上的司机将要做什么，并与电影中的角色产生共鸣。根据一项新的研究，大语言模型（法学硕士）那种力量聊天GPT 诸如此类的人出人意料地擅长模仿这种典型的人类特征。

研究合著者表示：“在进行这项研究之前，我们都确信大型语言模型无法通过这些测试，尤其是评估心理状态的微妙能力的测试。” 克里斯蒂娜·贝奇奥，认知神经科学教授汉堡-埃彭多夫大学医学中心在德国。她称之为“出乎意料且令人惊讶”的结果今天发布——有点讽刺的是，在日记中 自然人类行为。

然而，结果并没有让所有人相信我们已经进入了一个像我们一样思考的机器的新时代。两位审查了调查结果的专家建议“持保留态度”，并警告不要就可能引起“公众炒作和恐慌”的话题得出结论。另一位外部专家警告说，软件程序拟人化存在危险。

研究人员小心翼翼地没有说他们的结果表明法学硕士实际上拥有心理理论。

本研究的作者很清楚这场争论。 “我们在论文中的目标是利用广泛的心理测试，以更系统的方式应对评估机器心理理论的挑战，”研究合著者说詹姆斯·斯特拉坎，一位认知心理学家，目前是汉堡-埃彭多夫大学医学中心的访问科学家。他指出，进行严格的研究意味着还需要测试人类执行与法学硕士相同的任务：该研究将 1,907 名人类的能力与几个流行的法学硕士（包括 OpenAI 的法学硕士）的能力进行了比较。 GPT-4 模型和开源拨打 2-70b 模型来自元。

如何测试法学硕士的心理理论

法学硕士和人类都完成了五种典型的心理理论任务，其中前三种是理解暗示、反讽和失礼。他们还回答了“错误信念”问题，这些问题通常用于确定幼儿是否已发展出心智理论，例如：如果爱丽丝在鲍勃离开房间时移动了某个东西，那么鲍勃回来时会在哪里寻找它？最后，他们回答了关于“奇怪的故事”的相当复杂的问题，这些故事的特点是人们互相撒谎、操纵和误解。

总体而言，GPT-4 名列前茅。它的分数与人类在错误信念测试中的分数相匹配，并且高于人类在讽刺、暗示和奇怪故事方面的总分；它只是在失礼测试中表现比人类差。有趣的是，Llama-2 的得分与 GPT-4 相反——它在错误信念上与人类相匹配，但在讽刺、暗示和奇怪故事上的表现比人类差，而在失礼方面的表现则比人类更好。

“我们目前没有方法，甚至不知道如何测试存在心智理论。” —James Strachan，汉堡-埃彭多夫大学医学中心

研究人员小心翼翼地没有说他们的结果表明法学硕士实际上拥有心理理论，而是说他们“在心理理论任务中表现出的行为与人类行为没有区别”。这就引出了一个问题：如果仿制品和真品一样好，你怎么知道它不是真品？斯特拉坎说，这是社会科学家以前从未试图回答的问题，因为对人类的测试假设这种质量或多或少存在。 “我们目前没有方法，甚至不知道如何测试存在心灵理论，现象学的品质，”他说。

对研究的批评

研究人员显然试图避免导致科辛斯基 2023 年关于法学硕士和心智理论的论文受到批评的方法论问题。例如，他们分多个环节进行测试，这样法学硕士就无法在测试过程中“记住”正确答案，而且他们改变了问题的结构。但约夫·戈德堡和娜塔莉·夏皮拉，两位人工智能研究人员发表了批判科辛斯基论文的作者表示，他们也不相信这项研究。

“为什么文本操作系统能否为这些任务生成与人们在面对相同问题时给出的答案相似的输出很重要？” —艾米丽·本德，华盛顿大学

戈德堡对研究结果持保留态度，并补充说“模型不是人类”，并且在比较两者时“人们很容易得出错误的结论”。夏皮拉谈到了炒作的危险，并对报纸的方法提出了质疑。她想知道模型是否可能在训练数据中看到了测试问题并简单地记住了正确答案，并且还指出了使用付费人类参与者（在本例中是通过多产平台）。 “众所周知，工人们并不总能以最佳方式执行任务，”她告诉我们 IEEE 频谱。她认为研究结果有限且有些轶事，她说：“为了证明 [theory of mind] 能力，需要大量的工作和更全面的基准测试。”

艾米莉·本德华盛顿大学计算语言学教授，因坚持戳穿炒作这使得人工智能行业膨胀（媒体也经常报道该行业）。她对激励研究人员的研究问题提出了质疑。 “为什么文本操作系统能否为这些任务生成与人们在面对相同问题时给出的答案相似的输出很重要？” 她问。 “这让我们了解了法学硕士的内部运作方式，它们可能有什么用处，或者它们可能带来什么危险？” 本德说，目前尚不清楚法学硕士拥有思维模型意味着什么，因此也不清楚这些测试是否对其进行了衡量。

本德还对她在论文中发现的拟人化表示担忧，研究人员表示法学硕士有能力认知、推理和做出选择。她说，作者的短语“法学硕士和人类参与者之间的物种公平比较”“在提及软件时完全不合适”。本德和几位同事最近发布了预印纸探索拟人化人工智能系统如何影响用户的信任。

结果可能并不表明人工智能真的得到我们，但值得思考的是令人信服地模仿心理推理理论的法学硕士的影响。他们会更好地与人类用户互动并预测他们的需求，但他们也可以更好地用于欺骗或操纵用户。他们会通过让人类用户相信用户界面的另一边有一个思想来引入更多的拟人化。

来自您网站的文章

网络上的相关文章

2024-05-20 15:00:02
1716283305

Tags: gpt-4, 在心智理论测试中人工智能击败了人类, 大型语言模型, 心理学, 心理理论

在心智理论测试中，人工智能击败了人类

如何测试法学硕士的心理理论

对研究的批评

Related

相关新闻

哈森·雷迪克缺席了喷气机队的 OTA

阿黛尔对粉丝大喊大叫，她以为粉丝喊的是“骄傲糟透了”

战神：诸神黄昏 PC 版玩家需要 PSN 账户…是的，真的 < NAG

教会呼吁周日信徒祈求和平

战争，最新消息。埃及，“哈马斯已接受美国的提议”。美国向内塔尼亚胡施压，要求其接受停战

法国评级下调后政府坚称不会加税

扎伊尔-埃梅里、拉卡泽特和巴科拉出现在“预选名单”中，而不是姆巴佩和格里兹曼

一项研究表明大麻会影响睾丸的大小

在法国小姐的厕所里……西尔维·泰利尔的爆料可能会玷污比赛

加拿大太平洋铁路承诺提供服务，巴吞鲁日至新奥尔良的客运列车即将开通 | 商业新闻

克劳迪娅·谢因鲍姆 (Claudia Sheinbaum)，墨西哥 200 多年历史上的虚拟第一任总统

中国这种大型、凶猛、手持枪支的机器狗会成为未来战争的主力吗？

Leave a Reply Cancel reply

近期新闻

哈森·雷迪克缺席了喷气机队的 OTA

阿黛尔对粉丝大喊大叫，她以为粉丝喊的是“骄傲糟透了”

战神：诸神黄昏 PC 版玩家需要 PSN 账户…是的，真的 < NAG

教会呼吁周日信徒祈求和平

战争，最新消息。埃及，“哈马斯已接受美国的提议”。美国向内塔尼亚胡施压，要求其接受停战

法国评级下调后政府坚称不会加税

编辑精选

信息

More Interesting News

哈森·雷迪克缺席了喷气机队的 OTA

阿黛尔对粉丝大喊大叫，她以为粉丝喊的是“骄傲糟透了”

在心智理论测试中，人工智能击败了人类

如何测试法学硕士的心理理论

对研究的批评

Share this:

Related

相关新闻

Leave a Reply Cancel reply

近期新闻​

编辑精选​

Tags

信息

More Interesting News

近期新闻

编辑精选