![](https://cdn.mos.cms.futurecdn.net/ueiAeu2fHa6awKxazmWVRJ-1200-80.jpg)
在评估学生写作时,人工智能获得了及格分数。
至少这是最近两项比较机器人(AI)生成的评估与人类评估的研究表明的。在一项研究中,研究人员 将 ChatGPT 给出的书面反馈与人类教师给出的反馈进行了比较 基于南加州两个学区的 26 个教室的 6-12 年级学生撰写的 200 篇基于来源的历史论证文章。 在另一项研究中,学生的论文被赋予了数字分数 由教师和各种版本的 ChatGPT 进行测试,研究人员观察了不同人类和不同版本的 ChatGPT 在评分方面的一致性。
在书面反馈研究中,一批熟练的人类教师的表现略优于他们的人工智能教师,而在另一项研究中,人工智能的表现略优于人类。
这两项研究的合著者、亚利桑那州立大学教授史蒂夫·格雷厄姆表示,虽然人类在书面评估研究中表现更佳,而人工智能在只给出分数的研究中表现略好一些,但总体而言,人工智能和人类的表现非常接近。
他更详细地讨论了这两项研究的发现、局限性和含义。
人类与人工智能写作评估:研究发现了什么
在书面评估研究中,Graham 和他的合著者从五个反馈要素衡量了人类与 ChatGPT 的表现:
- 反馈是否基于标准。
- 反馈是否提供了明确的方向。
- 反馈是否准确。
- 反馈是否优先考虑基本功能(以避免学生因过多的反馈而不知所措)。
- 反馈是否以支持性语气给出。
除了一项标准之外,人类在所有这些标准上都胜过人工智能。“人工智能实际上在以下方面胜过人类 [assessing] 学生从源材料中获取信息的能力如何,”Graham 说。
改变教育的工具和想法。在下面注册。
尽管人类教师在研究中总体表现更好,但 Graham 强调,与随机教师组相比,ChatGPT 的表现可能比人类更好。“在这项研究中,我们拥有可以视为专家的反馈者,”他说,并补充说,这项研究中的教师代表了“即使不是最好的情况,也是非常好的情况。”
在另一项研究 ChatGPT 试卷得分与人类得分一致性的研究中,聊天机器人的表现实际上优于人类,但不同代 ChatGPT 技术之间的评分仍然存在不一致。
“当你比较几个不同的人工智能系统时,你会发现人工智能比人类更可靠,”格雷厄姆说。“我们通常认为人类是黄金标准,人类的匹配率约为 43%,而人工智能的匹配率在 50% 到 82% 之间。”
然而,这项研究凸显了书面作业评分总体上不一致的问题。格雷厄姆说,无论是人类还是机器,评分都不如“我们所希望的那样一致”。
研究给教师的启示
总体而言,这些论文表明,人工智能在未来的评估写作中可能会发挥作用,或许可以作为学生在提交论文之前用来改进作业的工具,也可能成为教师节省时间的工具。格雷厄姆说,提供更多反馈是提高学生写作水平的最佳方法之一,但班级规模较大的繁忙教师往往没有时间增加他们可以提供的评估数量。
然而,当前的研究也存在一些局限性。在书面评估研究中,Graham 和他的同事使用了专门设计的提示,这些提示经过了使用技术进行写作教学的专家的测试和审查。因此,这些提示比课堂教师为 AI 编写的提示更有力。
另一方面,随着人工智能技术进步,在不久的将来,围绕人工智能评分的讨论可能会有所不同。“我猜随着时间的推移,人工智能将越来越擅长提供反馈,”格雷厄姆说。
但格雷厄姆说,在学校中实施这项技术,无论是以目前的形式还是在未来可能改进的形式,都需要对学生和教师进行更多的培训,并强调数字素养。
“如果我们想看到人工智能在课堂上得到广泛应用,我们还有很长的路要走。教师需要对人工智能更加自信和熟悉,”他说。“我们需要解决未经批准的使用问题和道德问题,我们必须认真思考如何将人工智能付诸实践。”
1720071349
#科学家将 #ChatGPT #写作评估与人工评估进行了比较以下是他们的发现
2024-07-02 09:00:00