谷歌旗舰Gemini AI模型获得重大升级

字母表的 双子座人工智能模型 上市仅两个月,但该公司已经发布了升级版。 Gemini Pro 1.5 今天以有限的可用性推出,比其前身更强大,可以一次处理大量文本、视频或音频输入。

开发新模型的谷歌 DeepMind 首席执行官 Demis Hassabis 将其巨大的输入能力与人的工作记忆进行了比较,这是他多年前作为神经科学家探索的。 “这些核心功能的伟大之处在于它们解锁了模型可以做的一些辅助事情,”他说。

在演示中,Google DeepMind 展示了 Gemini Pro 1.5 分析阿波罗 11 号通信记录的 402 页 PDF。 该模型被要求找到幽默的部分,并突出显示几个时刻,例如宇航员说由于三明治破裂而导致通信延迟。 另一个演示展示了该模型回答有关巴斯特·基顿电影中特定动作的问题。 以前版本的 Gemini 只能用更短的文本或视频来回答这些问题。 谷歌希望新功能将使开发人员能够在该模型的基础上构建新型应用程序。

谷歌 DeepMind 的研究科学家奥里奥尔·维尼亚尔斯 (Oriol Vinyals) 表示:“模型如何在每个页面、每个单词上执行这种推理,真的感觉非常神奇。”

谷歌表示,Gemini Pro 1.5 可以一次摄取并理解一小时的视频、11 小时的音频、700,000 个单词或 30,000 行代码,比其他人工智能模型多几倍,包括 OpenAI 的 GPT-4,它的权力 聊天GPT。 该公司尚未透露这一壮举背后的技术细节。 哈萨比斯表示,谷歌 DeepMind 研究人员测试的可处理大量文本的模型的一种用途是识别包含数千条消息的 Discord 讨论中的重要内容。

从该型号在几个流行基准测试中的得分来看,Gemini Pro 1.5 的功能也更强大,至少就其尺寸而言是这样。 新模型利用了谷歌研究人员之前发明的一项技术,可以在不需要更多计算能力的情况下获得更多性能。 该技术称为专家混合,有选择地激活模型架构中最适合解决给定任务的部分,从而提高训练和运行的效率。

谷歌表示,Gemini Pro 1.5 在许多任务中与其最强大的产品 G​​emini Ultra 一样有能力,尽管它的型号要小得多。 Hassabis 表示,用于改进 Gemini Pro 的相同技术没有理由不能应用于增强 Gemini Ultra。

Gemini Pro的升级版本将通过AI Studio(用于测试模型功能的沙箱)向开发者开放,并通过谷歌的Vertex AI云平台API向有限数量的开发者开放。 目前还没有全面发布的日期。

谷歌还推出了新工具来帮助开发人员在他们的应用程序中使用 Gemini,包括利用模型解析视频和音频的能力的新方法。 该公司还表示,正在为其基于网络的编码工具 Project IDX 添加新的 Gemini 支持的功能,包括人工智能调试和测试代码的方法。

Gemini 的升级速度标志着一场激烈的 AI 竞赛的成功,这场竞赛拉开了序幕。 聊天GPT。 本周早些时候,OpenAI 宣布 赋予 ChatGPT 记忆能力 从长时间的对话中获得有用的信息。 上星期, 谷歌重新命名其聊天机器人 Bard 并宣布 Gemini Ultra 将通过付费订阅提供。

生成式人工智能的快速进步与对该技术可能带来的风险的担忧相矛盾。 谷歌表示,它已经对 Gemini Pro 1.5 进行了广泛的测试,并且提供有限的访问权限提供了一种收集潜在风险反馈的方法。 该公司表示,它还为英国人工智能安全研究所的研究人员提供了访问其最强大模型的权限,以便他们进行测试。

哈萨比斯表示,预计未来几个月将取得更多进展。 “这是一种新的节奏,”他说,“我试图带来一种创业心态。”

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​