通过“多余词语”判断文本是否由人工智能撰写

受到 冠状病毒 为了评估与疫情之前相比,疫情对“超额死亡”的影响,来自德国图宾根大学和伊利诺伊州西北大学的一组研究人员研究了一种 识别人工智能生成的文本

随着以书写工具为基础的广泛传播 LLM(大型语言模型)ChatGpt 双子座研究人员分析了人工智能产生的“多余词汇”,发现“法学硕士的出现导致某些文体特征出现频率急剧上升”,这一现象“在质量和数量上都是前所未有的”。

在他们的科学论文草稿中 可在 arXiv 平台上获取 – 一个包含各种性质的科学文章的开源档案库 – 德国和美国的研究人员报告称,他们已经分析了 1400 万份科学论文摘要 – 2010 年至 2024 年期间在 PubMed 上发表的文章 – 并记录了所审查文章中每个术语逐年出现的频率。

接下来,研究人员比较了 相同单词的预期频率 (基于 2023 年之前出现的趋势)与实际发现的频率 在 2023 年和 2024 年初的学术文章中书写工具兴起的时期生成人工智能

研究人员写道:“我们基于过度用词的分析表明,2024 篇摘要中至少有 10% 是在 LLM 的帮助下准备的。”

但在这种情况下,最有趣的消息是,研究人员已经确定了一系列在 2023 年之前在科学论文中并不常见的词汇,而从去年开始——在简称 LLM 出现之后—— 他们突然变得流行起来

例如“深化”出现在 2024 年发表的论文中 频率高出二十五倍 根据对 2023 年前趋势的研究,这一数字比人们预期的要高。对于“使明显“e”强调”的使用量比两年前增加了 9 倍。“潜在的”(+4%),“至关重要的” (+2,6%)“结果“(+2.7%)。

为什么这些话是可信的“线索”?

有两个原因。

首先,无论是否采用法学硕士学位,语言和言语都会不断发展,但 词汇变化的速度并没有那么快2012 年《自然》杂志发表的一项研究重点强调了最常用的单词,例如, 变化速度较慢

第二个原因是,在 ChatGpt 和类似工具出现之前,某些术语的使用年复一年地发生了如此彻底和指数级的变化 只有在与全球重大健康危机相关的词语存在的情况下与人们预期的相比,“”一词的使用已经超出了正常的范围。埃博拉病毒” 或 2015 年的“新冠病毒“e”封锁“e”大流行”在2020年至2022年之间。

德国和美国研究人员还注意到,LLM 时代产生的“多余词汇” 它们属于“风格化”类型. 简而言之,不是代词,而是 动词、形容词和副词.这证实了 肉眼可见的趋势:人工智能往往比较冗长,会在生成的文本中塞入大量形容词和副词,而真实人类大多数时候都不会使用这些形容词和副词。

图宾根大学和西北大学的研究表明,识别人工智能编写的文本虽然很复杂,但至少在理论上是可能的。

到目前为止,确定一段文字是否由人类撰写比想象的要困难得多。 或者来自人工智能网络上有几种工具承诺揭露 ChatGpt 或 Claude 的使用情况, 来到 Gpt Zero但这些工具的准确性仍有待证明。

相同 OpenAI一家旧金山公司创建 ChatGpt不久前曾表示 “验证”文本的工具不起作用“虽然一些公司(包括 OpenAI)已经发布了声称可以检测 AI 生成内容的工具,但这些工具都没有被证明能够可靠地区分 AI 生成的内容和人类生成的内容。”

因此,OpenAI 于 2023 年 7 月关闭 “人工智能分类器” 这种工具的诞生是为了毫无疑问地确定一段文本是否源自一个人的思想 或者来自机器的神经网络

1720013454
#通过多余词语判断文本是否由人工智能撰写
2024-07-03 12:58:36

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​