大学考官未能在实际考试中发现 ChatGPT 答案

面对面考试让学生更难利用人工智能作弊

Trish Gant/Alamy

94% 使用 ChatGPT 创建的大学考试题目未被检测出是由人工智能生成的,而且这些题目的分数往往比真实学生的作业更高。

彼得·斯卡夫 英国雷丁大学的研究人员及其同事使用 ChatGPT 为该校心理学本科学位课程的五个模块中的 63 个评估问题提供答案。学生在家参加这些考试,因此他们可以查看笔记和参考资料,尽管这是不允许的,但他们可能会使用人工智能。

人工智能生成的答案与真实学生的作业一起提交,平均占学者批改的试卷总数的 5%。批改人员并未被告知他们正在检查 33 名假学生的作业——这些学生的名字本身就是由 ChatGPT 生成的。

评估包括两种类型的问题:简答题和长篇论文。ChatGPT 给出的提示以“包括对学术文献的引用,但没有单独的参考部分”开头,然后复制考试问题。

在所有模块中,只有 6% 的人工智能提交作品被标记为可能不是学生自己的作品——尽管在某些模块中,没有人工智能生成的作业被标记为可疑。“平均而言,人工智能的答案比我们真正的学生提交的作品获得的分数更高,”斯卡夫说,尽管不同模块之间存在一些差异。

他补充道:“目前的人工智能往往在更抽象的推理和信息整合方面表现不佳。”但在所有 63 份人工智能提交的论文中,人工智能作品得分超过学生作品的可能性为 83.4%。

研究人员声称,他们的研究是迄今为止同类研究中规模最大、最有力的研究。尽管这项研究只调查了雷丁大学心理学学位课程,但斯卡夫认为,这值得整个学术界关注。“我没有理由认为其他学科领域不会有同样的问题,”他说。

“结果正如我所料,” 托马斯·兰开斯特 伦敦帝国理工学院的研究人员表示:“我们知道,生成式人工智能可以对简单、受限的文本问题给出合理的答案。”他指出,包括简短回答在内的无监督评估一直很容易出现作弊行为。

需要评分的学者的工作量也不利于他们发现人工智能造假的能力。“时间紧迫的简答题评分员不太可能一时兴起就提出人工智能不当行为的案例,”兰卡斯特说。“我相信这不是唯一一个发生这种情况的机构。”

斯卡夫说,从源头上解决这个问题几乎是不可能的。因此,该行业必须重新考虑其评估的内容。“我认为,整个行业必须承认我们必须将人工智能纳入我们对学生的评估中,”他说。

主题:

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​