双子座:谷歌加强其搜索引擎,并通过自然对话和视觉技能使其人性化 | 技术

在推出最先进版本的 Open AI 对话机器人 ChatGPT-4o 后仅 24 小时,谷歌就在本周二加大了赌注,对其搜索引擎进行了类似的改进,这些改进已经在美国开始实施各国传播到世界其他地区。 新的搜索平台再现了该公司所谓的“代理”技能,能够代表用户计划和执行行动,但又将其人性化到模拟与人的互动。 Gemini,作为跨国公司和搜索引擎的人工智能,可以被打断以重新调整对话方向,移动摄像头成为您的眼睛,描述您所看到的内容,解决您观察到的问题或指定您所在的位置。 您在对话期间注册的对象。 我把钥匙放在哪里了? 这个问题的解决办法是什么? 这是什么? 问双子座。

谷歌已抽出全部力量对抗Open AI,争夺搜索领域的霸主地位。 公司负责人, 桑达尔·皮查伊 (Sundar Pichai) 接管了演示 本周二的年度版上人工智能的最新进展 谷歌输入/输出 位于山景城(加利福尼亚州)。 它将适用于所有产品(Gmail、照片、Drive、Meet 和任何工作空间工具),但正如皮查伊所说,尤其适用于作为其据点的平台:“Gemini 最令人兴奋的转变当然是在 Google 搜索中。 “我们从根本上改变了它的工作方式。”

“Gemini 可以保持个性化和交互式的对话,混合和组合输入和输出,”Pichai 在谈到与搜索引擎交互的人性化时解释道,搜索引擎交互不再是线性的(连续查询和响应)来模拟类似于员工的关系。 这些是他们去年四月在拉斯维加斯向代理商展示的技能。 谷歌下一步,其中启动了代表用户计划和执行操作的机器人。 “它们是具有推理、计划和记忆能力的智能系统。 他们能够提前思考几个步骤,跨程序和系统工作,或者代表用户做一些事情,更重要的是,在他们的监督下。 这位经理在回应公司自己的研究小组(DeepMind)发现的道德风险时表示:“我们正在认真思考如何以一种私密、安全且适合所有人的方式做到这一点。”

传统的搜索引擎会返回或多或少与用户请求相关的网页,随着 Gemini 的出现而载入史册。 谷歌搜索主管莉兹·里德(Liz Reid)保证,尽管这个工具“非常强大”,但它需要“大量的工作”,涉及微调描述符和从数千个结果中清除相关信息的工作获得。 “搜索已经解决了一个又一个问题,”她承认。

正如他所解释的那样,新技能理解“你真正想要的是什么”,将其置于情境中,知道你从哪里进行交互,以及提供结合了各个领域发现的结果的“理由”,并提出计划和建议。 正如她用一个实际例子解释的那样,虽然传统搜索引擎被询问该地区的餐馆,但由于 人工智能概述 现在,您可以从 Gemini 请求“庆祝周年纪念日的地点”,搜索引擎会提供不同类别的计划、价格、地点和建议。 或者您也可以为具有不同兴趣的多名成员的家庭提供复杂的旅行计划。 “Google 可以为您集思广益”里德强调道。

但双子座超越了对话、推理和计划,这已经代表了巨大的进步。 新的一步是最大可能的人性化,除了听觉之外,它还获得了另一种基本感觉:视觉。 黛米斯·哈萨比斯,导演 深中,解释道:“我们一直想构建一个在日常生活中有用的通用代理。 这就是我们从一开始就打造 Gemini 多式联运的原因。 我们现在正在处理不同的感官信息流。 这些代理可以更好地看到和听到我们所做的事情,了解我们所处的环境,并在对话中快速做出反应,从而使交互的速度和质量更加自然。”

哈萨比斯展示了这些技能,这些技能将在高级计划订阅者的 Live 应用程序中以实时记录的序列镜头提供。 搜索引擎使用手机的摄像头记录用户的真实上下文,询问她看到了什么、她所指向的物体的特定部分叫什么、如何解决写在纸上的数学问题以及如何改进在白板上显示的示意图中分发数据的过程。 最后,她问他:“我把眼镜落在哪里了?” 双子座记录了她在互动过程中看到的所有内容,即使与目前为止进行的对话无关,也会回顾感知到的图像并在她看到的地方准确地回答。 从那里开始,眼镜与双子座一起行动。

“Gemini 不仅仅是一个聊天机器人 [conversación]。 它被设计成她的私人助理。”谷歌副总裁兼 Gemini 总经理 Sissie Hsiao 在谈到她的同事 Hassabis 领导的 Astra 项目时解释道。 这就是 Google 竞争对手、类似 ChapGPT-4o 的开发者 Open AI 负责人 Sam Altman 所说的“超级能干的同事”。

“回复是个性化的 [se puede elegir entre 10 voces y el sistema se ajusta al patrón de habla del usuario] 并且直观地与模型保持真正的来回对话。 “与仅通过文本交互相比,双子座能够更简洁地提供信息并以更具对话性的方式做出回应,”Hsiao 指出。

功率方面也取得了进步,不仅是新设备,例如自己的处理器(Axion 芯片和 Trillium TPU),而且在充电能力方面也取得了进步。 Gemini 1.5 Pro 订阅者将能够管理多达 100 万个代币,Hsiao 表示这是“最大的上下文窗口”。 令牌是信息的基本单位。 它可以被理解为构成程序的输入或输出数据的一部分的单词、数字、符号或任何其他单独的元素。 借助此功能,Gemini 可以上传和分析最多 1,500 页或 30,000 行代码的 PDF 或长达一小时的视频,或查看和总结多个文件。 谷歌希望提供 200 万枚代币。

为了便于在手机等容量较小的设备上实施这些技能,谷歌更新了这些终端的特定系统,并开发了Flash,这是一种提供速度、效率和更低消耗的高性能系统。

尽管这一版本的 Google I/O 并不是主要的开发成果,但 Google 还展示了照片人工智能程序的改进,其中包括图像、视频创作 (Veo) 和音乐的第 3 版,其中包括 Lyria 和 合成ID。 Ask Photos 搜索引擎将于今年夏天开始运行,它将能够根据用户的要求按主题定位和分组图像,并创建包含所有相关图像的相册。

您可以关注 EL PAÍS 技术 Facebook y X 或在这里注册以接收我们的 时事通讯


1715748042
#双子座谷歌加强其搜索引擎并通过自然对话和视觉技能使其人性化 #技术
2024-05-14 18:05:47

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​