Gemini 的数据分析能力并不像谷歌宣称的那么好

谷歌旗舰级生成式人工智能模型 Gemini 1.5 Pro 和 1.5 Flash 的卖点之一是它们据称能够处理和分析的数据量。在新闻发布会和演示中,谷歌一再声称,这些模型可以完成以前不可能完成的任务,这要归功于它们的“长上下文”,例如总结数百页的文档或搜索电影镜头中的场景。 但新的研究表明,这些模型实际上在这些方面并不是很擅长。 二 分离 学习 研究了谷歌的 Gemini 模型和其他模型如何很好地理解大量数据——想想《战争与和平》长度的作品。两者都发现 Gemini 1.5 Pro 和 1.5 Flash 很难正确回答有关大型数据集的问题;在一系列基于文档的测试中,这些模型给出正确答案的概率只有 40% 到 50%。 马萨诸塞大学阿默斯特分校博士后、其中一项研究的合著者 Marzena Karpinska 告诉 >:“虽然像 Gemini 1.5 Pro 这样的模型在技术上可以处理长篇上下文,但我们已经看到许多案例表明,这些模型实际上并不‘理解’内容。” 双子座的上下文窗口缺失 模型的上下文或上下文窗口是指模型在生成输出(例如附加文本)之前考虑的输入数据(例如文本)。一个简单的问题——“谁赢得了 2020 年美国总统大选?”——可以作为背景,电影剧本、节目或音频剪辑也可以。随着上下文窗口的扩大,适合其中的文档的大小也会随之增大。 Gemini 的最新版本可以接收多达 200 万个标记作为上下文。(“标记”是原始数据的细分位,例如“fantastic”一词中的音节“fan”、“tas”和“tic”。)这相当于大约 140 万个单词、两小时的视频或 22 小时的音频——这是任何商用模型中最大的上下文。 在今年早些时候的一次简报会上,谷歌展示了几个预先录制的演示,旨在说明 Gemini 的长上下文功能的潜力。其中一个演示是让 Gemini 1.5 Pro 搜索阿波罗 11 号登月电视直播的文字记录(约 […]