谷歌 Gemini:关于新的生成式人工智能平台您需要了解的一切

图片来源: >

谷歌正试图通过 Gemini 掀起波澜,Gemini 是其生成式人工智能模型、应用程序和服务的旗舰套件。

那么双子座是什么? 你可以如何使用它? 它在竞争中表现如何?

为了让您更轻松地跟上 Gemini 的最新发展,我们整理了这份方便的指南,随着新的 Gemini 型号、功能和有关 Google Gemini 计划的新闻的发布,我们将不断更新该指南。

什么是双子座?

双子座是谷歌的 许诺已久,下一代 GenAI 模型系列,由 Google 的 AI 研究实验室 DeepMind 和 Google Research 开发。 它有三种口味:

  • 双子座超,性能最强的 Gemini 模型。
  • 双子座专业版,一个“精简版”双子座模型。
  • 双子座纳米,一个较小的“精炼”模型,可在 Pixel 8 Pro 等移动设备上运行。

所有 Gemini 模型都被训练为“原生多模式”——换句话说,能够处理和使用的不仅仅是单词。 他们对各种音频、图像和视频、大量不同语言的代码库和文本进行了预训练和微调。

这使 Gemini 与 Google 自己的 LaMDA 等模型区分开来,后者专门针对文本数据进行训练。 LaMDA 无法理解或生成文本以外的任何内容(例如论文、电子邮件草稿),但 Gemini 模型的情况并非如此。

Gemini 应用程序和 Gemini 模型有什么区别?

图片来源: 谷歌

谷歌再次证明它缺乏品牌推广的技巧,它从一开始就没有明确表示 Gemini 与网络和移动设备上的 Gemini 应用程序(以前称为 Bard)是独立且不同的。 Gemini 应用程序只是一个可以访问某些 Gemini 模型的界面 – 将其视为 Google GenAI 的客户端。

顺便说一句,Gemini 应用程序和模型也完全独立于 Imagen 2,Google 的文本到图像模型可在该公司的一些开发工具和环境中使用。

双子座能做什么?

由于 Gemini 模型是多模态的,因此理论上它们可以执行一系列多模态任务,从转录语音到为图像和视频添加字幕,再到生成艺术品。 其中一些功能已经进入产品阶段(稍后会详细介绍),谷歌承诺在不远的将来的某个时候实现所有这些功能,甚至更多。

当然,要相信该公司的话有点困难。

谷歌最初推出 Bard 的成果严重不足。 最近,它发布了一段视频,旨在展示 Gemini 的能力,结果却被大量篡改,或多或少有些令人向往。

尽管如此,假设谷歌的说法或多或少是真实的,那么一旦 Gemini 的不同级别充分发挥其潜力,他们将能够做到以下几点:

双子座超

谷歌表示,Gemini Ultra 凭借其多模态功能,可用于帮助完成物理作业、逐步解决工作表上的问题以及指出已填写答案中可能存在的错误。

谷歌表示,Gemini Ultra 还可以应用于识别与特定问题相关的科学论文等任务,从这些论文中提取信息,并通过生成用最新数据重新创建图表所需的公式来“更新”图表。 。

正如前面提到的,Gemini Ultra 在技术上支持图像生成。 但该功能尚未进入该模型的产品化版本 – 也许是因为该机制比 ChatGPT 等应用程序生成图像的方式更复杂。 Gemini 不是将提示提供给图像生成器(如 ChatGPT 中的 DALL-E 3),而是“本地”输出图像,无需中间步骤。

Gemini Ultra 可作为 API 通过 Vertex AI(Google 完全托管的 AI 开发人员平台)和 AI Studio(Google 面向应用程序和平台开发人员的基于网络的工具)提供。 它还为 Gemini 应用程序提供支持——但不是免费的。 通过 Google 所谓的 Gemini Advanced 访问 Gemini Ultra 需要订阅 Google One AI Premium Plan,价格为每月 20 美元。

AI Premium Plan 还将 Gemini 连接到更广泛的 Google Workspace 帐户,例如 Gmail 中的电子邮件、Docs 中的文档、表格中的演示文稿和 Google Meet 录音。 例如,这对于总结电子邮件或让 Gemini 在视频通话期间捕获笔记非常有用。

双子座专业版

谷歌表示,Gemini Pro 在推理、规划和理解能力方面比 LaMDA 有所改进。

一个独立的 学习 卡内基梅隆大学和 BerriAI 研究人员发现,Gemini Pro 的初始版本在处理更长、更复杂的推理链方面确实比 OpenAI 的 GPT-3.5 更好。 但研究还发现,与所有大型语言模型一样,这个版本的 Gemini Pro 在处理涉及多个数字的数学问题时尤其困难,用户还发现了糟糕的推理和明显错误的例子。

不过,谷歌承诺提供补救措施,第一个补救措施是 Gemini 1.5 Pro。

Gemini 1.5 Pro 旨在作为直接替代产品,与前身相比,在许多方面都进行了改进,最显着的可能是它可以处理的数据量。 Gemini 1.5 Pro 可以容纳约 700,000 个单词或约 30,000 行代码 – 是 Gemini 1.0 Pro 处理量的 35 倍。 而且——该模型是多模式的——它不限于文本。 Gemini 1.5 Pro 可以分析长达 11 小时的音频或一小时的各种不同语言的视频,尽管速度很慢(例如,在一小时视频中搜索场景需要 30 秒到一分钟的处理时间)。

Gemini 1.5 Pro 于 4 月份在 Vertex AI 上进入公开预览版。

另一个端点 Gemini Pro Vision 可以处理文本 图像(包括照片和视频)以及输出文本,类似于 OpenAI 的 GPT-4 with Vision 模型。

在 Vertex AI 中使用 Gemini Pro。 图片来源: 双子座

在 Vertex AI 中,开发人员可以使用微调或“基础”过程根据特定环境和用例自定义 Gemini Pro。 Gemini Pro 还可以连接到外部第三方 API 以执行特定操作。

在 AI Studio 中,有使用 Gemini Pro 创建结构化聊天提示的工作流程。 开发人员可以访问 Gemini Pro 和 Gemini Pro Vision 端点,他们可以调整模型温度来控制输出的创意范围,并提供示例来给出色调和风格说明,还可以调整安全设置。

双子座纳米

Gemini Nano 是 Gemini Pro 和 Ultra 型号的小得多的版本,它的效率足以直接在(某些)手机上运行,​​而不是将任务发送到某处的服务器。 到目前为止,它支持 Pixel 8 Pro、Pixel 8 和 Samsung Galaxy S24 上的多项功能,包括录音机中的摘要和 Gboard 中的智能回复。

Recorder 应用程序允许用户按下按钮来录制和转录音频,其中包括由 Gemini 支持的对录制的对话、采访、演示和其他片段的摘要。 即使用户没有可用的信号或 Wi-Fi 连接,他们也可以获得这些摘要,并且出于对隐私的尊重,在此过程中不会有任何数据离开他们的手机。

Gemini Nano 也在 Google 的键盘应用程序 Gboard 中。 在那里,它提供了一项名为“智能回复”的功能,该功能有助于建议您在消息应用程序中进行对话时想要说的下一句话。 谷歌表示,该功能最初仅适用于 WhatsApp,但随着时间的推移,将适用于更多应用程序。

在受支持设备上的 Google Messages 应用程序中,Nano 启用了 Magic Compose,它可以以“兴奋”、“正式”和“抒情”等风格制作消息。

Gemini 比 OpenAI 的 GPT-4 更好吗?

谷歌有好几次了 吹捧的 Gemini 在基准测试方面的优越性,声称 Gemini Ultra 在“大型语言模型研究和开发中使用的 32 个广泛使用的学术基准测试中的 30 个”上超过了当前最先进的结果。 同时,该公司表示,在某些场景下,Gemini 1.5 Pro 在总结内容、头脑风暴和写作等任务方面比 Gemini Ultra 更有能力; 据推测,随着下一个 Ultra 型号的发布,这种情况将会改变。

但撇开基准测试是否真的表明模型更好的问题不谈,谷歌给出的分数似乎只比 OpenAI 的相应模型好一点点。 而且 – 正如前面提到的 – 一些早期的印象并不好,用户和 学者 指出旧版本的 Gemini Pro 往往会出现基本事实错误,翻译困难,并且给出的编码建议很差。

双子座要多少钱?

Gemini 1.5 Pro 可在 Gemini 应用程序中免费使用,目前还可以在 AI Studio 和 Vertex AI 中使用。

然而,一旦 Gemini 1.5 Pro 退出 Vertex 预览,该模型每个角色的成本将为 0.0025 美元,而输出每个角色的成本将为 0.00005 美元。 Vertex 客户按 1,000 个字符(约 140 至 250 个单词)付费,对于 Gemini Pro Vision 等型号,按每张图像付费(0.0025 美元)。

Ultra 定价尚未公布。

哪里可以尝试双子座?

双子座专业版

体验 Gemini Pro 最简单的地方是在 Gemini 应用程序中。 Pro 和 Ultra 正在以多种语言回答查询。

Gemini Pro 和 Ultra 也可以通过 API 在 Vertex AI 中进行预览。 该API暂时可以“在限制范围内”免费使用,并支持包括欧洲在内的某些地区,以及聊天功能和过滤等功能。

在其他地方,Gemini Pro 和 Ultra 可以在 AI Studio 中找到。 使用该服务,开发人员可以迭代提示和基于 Gemini 的聊天机器人,然后获取 API 密钥以在应用程序中使用它们,或者将代码导出到功能更齐全的 IDE。

代码辅助(以前称为 面向开发者的 Duet AI),谷歌用于代码完成和生成的人工智能辅助工具套件,正在使用 Gemini 模型。 开发人员可以跨代码库执行“大规模”更改,例如更新跨文件依赖项和检查大块代码。

谷歌将 Gemini 模型引入了 Chrome 和 Firebase 移动开发平台的开发工具以及数据库创建和管理工具中。 它还推出了以 Gemini 为基础的新安全产品,例如 Threat Intelligence 中的 Gemini,它是 Google Mandiant 网络安全平台的一个组件,可以分析大部分潜在恶意代码,并让用户对持续的威胁或妥协指标进行自然语言搜索。

1714434395
2024-04-29 23:29:21
#谷歌 #Gemini关于新的生成式人工智能平台您需要了解的一切

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​