Gemini 的数据分析能力并不像谷歌宣称的那么好

谷歌旗舰级生成式人工智能模型 Gemini 1.5 Pro 和 1.5 Flash 的卖点之一是它们据称能够处理和分析的数据量。在新闻发布会和演示中,谷歌一再声称,这些模型可以完成以前不可能完成的任务,这要归功于它们的“长上下文”,例如总结数百页的文档或搜索电影镜头中的场景。

但新的研究表明,这些模型实际上在这些方面并不是很擅长。

分离 学习 研究了谷歌的 Gemini 模型和其他模型如何很好地理解大量数据——想想《战争与和平》长度的作品。两者都发现 Gemini 1.5 Pro 和 1.5 Flash 很难正确回答有关大型数据集的问题;在一系列基于文档的测试中,这些模型给出正确答案的概率只有 40% 到 50%。

马萨诸塞大学阿默斯特分校博士后、其中一项研究的合著者 Marzena Karpinska 告诉 >:“虽然像 Gemini 1.5 Pro 这样的模型在技术上可以处理长篇上下文,但我们已经看到许多案例表明,这些模型实际上并不‘理解’内容。”

双子座的上下文窗口缺失

模型的上下文或上下文窗口是指模型在生成输出(例如附加文本)之前考虑的输入数据(例如文本)。一个简单的问题——“谁赢得了 2020 年美国总统大选?”——可以作为背景,电影剧本、节目或音频剪辑也可以。随着上下文窗口的扩大,适合其中的文档的大小也会随之增大。

Gemini 的最新版本可以接收多达 200 万个标记作为上下文。(“标记”是原始数据的细分位,例如“fantastic”一词中的音节“fan”、“tas”和“tic”。)这相当于大约 140 万个单词、两小时的视频或 22 小时的音频——这是任何商用模型中最大的上下文。

在今年早些时候的一次简报会上,谷歌展示了几个预先录制的演示,旨在说明 Gemini 的长上下文功能的潜力。其中一个演示是让 Gemini 1.5 Pro 搜索阿波罗 11 号登月电视直播的文字记录(约 402 页),寻找包含笑话的引语,然后在电视直播中找到一个看起来像铅笔素描的场景。

主持此次简报会的谷歌 DeepMind 研究副总裁 Oriol Vinyals 将该模型描述为“神奇的”。

“[1.5 Pro] “在每一页、每一个字上都执行这类推理任务,”他说。

这也许有些夸张。

在上述一项针对这些能力进行基准测试的研究中,卡宾斯卡与艾伦人工智能研究所和普林斯顿大学的研究人员一起,要求模型评估关于用英语写的小说的真/假陈述。研究人员选择了近期的作品,这样模型就无法依靠预知来“作弊”,他们在陈述中加入了对具体细节和情节的引用,如果不读完整本书,就不可能理解这些细节和情节。

给出这样的陈述“通过使用 Apoth 的技能,Nusis 能够对由在 Rona 的木箱中发现的试剂钥匙打开的门户类型进行逆向工程”,Gemini 1.5 Pro 和 1.5 Flash – 在获取相关书籍后 – 必须说出该陈述是真是假并解释其理由。

图片来源: 马萨诸塞大学阿默斯特分校

研究人员对一本约 26 万字(约 520 页)的书进行了测试,发现 1.5 Pro 正确回答真假陈述的概率为 46.7%,而 Flash 正确回答的概率仅为 20%。这意味着硬币在回答有关这本书的问题方面比谷歌最新的机器学习模型要好得多。对所有基准测试结果进行平均,这两个模型在问答准确率方面都没有达到随机概率的水平。

“我们注意到,与可以通过检索句子级证据解决的主张相比,模型更难验证需要考虑书的大部分内容甚至整本书的主张,”Karpinska 说。“从质量上讲,我们还观察到,模型很难验证关于隐含信息的主张,这些信息对人类读者来说很清楚,但文本中没有明确说明。”

加州大学圣巴巴拉分校的研究人员共同完成了两项研究中的第二项,测试了 Gemini 1.5 Flash(但不是 1.5 Pro)对视频进行“推理”的能力,即搜索视频并回答有关视频内容的问题。

合著者创建了一个图像数据集(例如,一张生日蛋糕的照片),并附上一些问题,让模型回答有关图像中所描绘的物体的问题(例如,“这个蛋糕上有什么卡通人物?”)。为了评估模型,他们随机挑选了其中一张图片,并在其前后插入“干扰”图像,以创建类似幻灯片的素材。

Flash 的表现并不理想。在一项测试中,模型从 25 张图片的“幻灯片”中转录 6 个手写数字,Flash 的转录正确率约为 50%。转录 8 个数字后准确率下降到 30% 左右。

“在针对图像的真实问答任务中,我们测试的所有模型似乎都特别困难,”加州大学圣巴巴拉分校的博士生、这项研究的合著者之一迈克尔·萨克森 (Michael Saxon) 告诉 >。“那一点点推理——认识到一个数字在框架内并读取它——可能是破坏模型的原因。”

谷歌对 Gemini 的承诺过于夸张

这两项研究均未经过同行评审,也没有对 Gemini 1.5 Pro 和 1.5 Flash 2 百万个标记上下文版本进行测试。(两项测试均测试了 1 百万个标记上下文版本。)而且 Flash 的性能并不如 Pro 那样强大;Google 将其宣传为一种低成本的替代品。

尽管如此,这两件事都进一步证实了谷歌从一开始就对 Gemini 过度承诺,​​但交付不足。研究人员测试的所有模型,包括 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet,都没有表现良好。但谷歌是唯一一家在广告中将上下文窗口放在首位的模型提供商。

“基于客观的技术细节,‘我们的模型可以接受 X 个 token’这种简单的说法并没有错,”Saxon 说。“但问题是,你能用它做什么有用的事情?”

从广义上讲,随着企业(和投资者)对该技术的局限性越来越感到沮丧,生成式人工智能正受到越来越多的审查。

波士顿咨询集团最近进行的两项调查显示,约有一半的受访者(均为高管)表示,他们并不认为生成式人工智能能够带来实质性的生产力提升,而且他们担心生成式人工智能工具可能出现错误和数据泄露。PitchBook 最近 已报告 连续两个季度,早期阶段的生成式人工智能交易数量出现下滑,较 2023 年第三季度的峰值暴跌 76%。

面对会议总结聊天机器人(它们会虚构人物细节)和人工智能搜索平台(基本上相当于抄袭生成器),客户正在寻找有前途的差异化因素。谷歌(虽然有时笨拙地追赶生成式人工智能的竞争对手)迫切希望将 Gemini 的上下文功能变成这些差异化因素之一。

但看起来,这个赌注有点太早了。

“我们还没有找到一种真正能证明对长篇文档进行‘推理’或‘理解’的方法,基本上每个发布这些模型的团队都在拼凑自己的临时评估来做出这些声明,”Karpinska 说。“如果不知道上下文处理实施的时间有多长——而且公司不会分享这些细节——就很难说这些声明有多现实。”

谷歌没有回应置评请求。

萨克森和卡尔平斯卡都认为,要消除围绕生成式人工智能的过度宣传,最好的办法是制定更好的基准,同时更加重视第三方的批评。萨克森指出,对长上下文进行的最常见测试之一(谷歌在其营销材料中大量引用)是“大海捞针”,它只衡量模型从数据集中检索特定信息(如姓名和数字)的能力,而不是回答有关这些信息的复杂问题。

“所有使用这些模型的科学家和大多数工程师基本上都一致认为,我们现有的基准文化已经被打破,”萨克森说,“因此,公众必须明白,对于这些包含‘基准测试总体智力’等数字的巨幅报告,要持怀疑态度。”

1719736292
#Gemini #的数据分析能力并不像谷歌宣称的那么好
2024-06-29 22:30:00

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​