科学家发现 ChatGPT 在回答计算机编程问题时不准确

参与者对答案质量的评价。来源: CHI 计算机系统人为因素会议论文集 (2024)。DOI:10.1145/3613904.3642596

普渡大学的一组计算机科学家发现,流行的法学硕士课程 ChatGPT 在回答计算机编程问题时非常不准确。在他们的 作为 CHI 计算机系统人为因素会议论文集该团队描述了他们如何从 StackOverflow 网站提取问题并将其提交给 ChatGPT,然后在回答时测量其准确度。

该团队还在计算机系统人为因素会议上展示了他们的研究成果(2024 年中国国际象棋锦标赛) 于 5 月 11 日至 16 日举行。

ChatGPT 和其他 LLM 最近频频出现在新闻中——自从这些应用程序向公众开放以来,它们变得非常受欢迎。不幸的是,这些应用程序给出的许多答案虽然包含大量有用的信息,但也存在大量不准确之处。更不幸的是,这些应用程序给出的答案有时并不清楚。

在这项新研究中,普渡大学的团队指出,许多编程学生已经开始使用法学硕士,不仅帮助编写编程作业的代码,还回答与编程相关的问题。例如,学生可以问 ChatGPT,冒泡排序和归并排序有什么区别,或者更通俗地说,什么是递归?

为了了解法学硕士回答这些问题的准确率,研究团队将精力集中在其中的一个问题上——ChatGPT。为了找到用于测试应用程序的问题,研究人员使用了 StackOverflow 网站上免费提供的问题——该网站旨在帮助程序员通过与自己感兴趣领域的其他人合作来学习更多关于编程的知识。在该网站的一个部分,用户可以发布问题,其他知道答案的人会回答这些问题。

研究团队使用了网站上的 517 个问题,然后测量了 ChatGPT 给出正确答案的频率。遗憾的是,正确率只有 52%。他们还发现,与向人类专家提出同样的问题相比,答案往往更为冗长。

令人震惊的是,该团队发现,用户研究参与者 35% 的时间更喜欢 ChatGPT 给出的答案。研究人员还发现,阅读 ChatGPT 给出的答案的同一批用户往往没有发现所犯的错误——他们 39% 的时间都忽略了错误答案。

更多信息:
Samia Kabir 等人,《Stack Overflow 过时了吗?对 Stack Overflow 问题 ChatGPT 答案特征的实证研究》, CHI 计算机系统人为因素会议论文集 (2024)。 DOI: 10.1145/3613904.3642596

© 2024 科学X网络

引用:科学家发现 ChatGPT 在回答计算机编程问题时不准确(2024 年 5 月 27 日)于 2024 年 5 月 28 日检索自

本文件受版权保护。除出于私人学习或研究目的的合理使用外,未经书面许可不得复制任何部分。内容仅供参考。

1716877235
#科学家发现 #ChatGPT #在回答计算机编程问题时不准确
2024-05-27 14:20:01

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​