谷歌人工智能超级团队的革命

AGI——国际象棋有着千年的历史,但在人工智能领域仍然发挥着决定性的作用。 从第一个 IBM 模型开始,国际象棋引擎的发展在各种机器学习和深度学习模型的应用中一直很重要,正如 Quanta 杂志上的一篇文章所解释的那样,它可能在以下方面发挥非常积极的作用: 一种称为“人工头脑风暴”的新型方法”。 但我们还是按顺序来吧。 这个故事的中心是一个男人, 汤姆扎哈维以色列计算机研究员就职于r DeepMind, 和一辆车, 阿尔法零 “多样化版本”,专门为解决更广泛的工具箱问题而开发,顾名思义,其组件多样化。 拼图的重要性 扎哈维和许多爱好者一样,在疫情期间重新发现了国际象棋,特别是深入研究了与引擎、人工智能和计算机解决游戏最复杂方面的能力相关的问题。 和许多人一样,他意识到自己更擅长解决单个“谜题”,而不是真正的游戏。 也就是说,他明白自己擅长从特定的位置出发找到所谓“问题”的答案,这些问题通常来自真实的游戏,但也来自人为的和不可能的想法,并且通常有助于完善游戏的质量。国际象棋棋手对战术和对游戏的理解的主题。 但谜题在国际象棋引擎的开发中也至关重要,因为随着时间的推移,它们有助于揭示其最隐藏的局限性。 而这也是扎哈维的出发点。 “我试图理解为什么其中一些问题对于计算机来说如此困难,而至少其中一些问题是可以由人类解决的。” 在支持这篇论文时,他引用了 一个非常著名的谜题,由数学家 Roger Penrose 在 2017 年创建 (2020 年诺贝尔物理学奖),其中最强的黑棋(例如皇后和车)被排列在棋盘上,但放置在不太容易阅读的“方格”中。 伟大的棋手在下白棋时可以轻松地平局,而强大的国际象棋程序如果不能完全掌握这些可能性,就会推断出黑棋有明显的优势,因此可以赢得胜利。 扎哈维认为,这种分析上的差异表明,尽管计算机能够击败最好的“人类”玩家, 在认识和解决某类问题上仍然存在一些局限性。 他克服这些困难的想法非常简单:设计配备多种可能行为的人工智能系统,旨在克服基于单次执行的模型。 最重要的是,他们“作为一个团队”努力取得进展并找到最佳解决方案。 在一些同事的帮助下,Zahavy 开发了一个模型,将多个人工智能系统组合在一起,最多 10 个,从现有最强大的算法 AlphaZero 开始。 这些系统 他们都具有强烈的决策印记 但每个都经过优化和训练以采用不同的策略。 这个新模型不仅在经典游戏中比 AlphaZero 表现得更好,而且更擅长解决彭罗斯提出的复杂问题。 所有这一切都以最简单的方式进行:当系统发现自己面临着无法逾越的“墙”时,程序就会继续前进,直到找到最有效的方法来阻止障碍。 不难理解所有这些如何应用于国际象棋之外的情况,以证明在所有处理人工智能的算法的开发中非常有用。

球场上的人工智能:谷歌 DeepMind 的人工智能现在掌握了足球战术

谷歌的人工智能部门 DeepMind 开发了一种工具,可以分析专业的足球战术并预测角球的结果。 这家谷歌旗下的人工智能(AI)公司对超越人类游戏能力并不陌生。 它此前曾征服过“围棋”、一款复杂的棋盘游戏和一款具有挑战性的即时战略视频游戏“星际争霸II”。 🎲 TacticAI 使用预测人工智能和生成人工智能来帮助重新设计角球战术,以针对某些场景进行优化。 它还可以建议调整球员的位置——这意味着教练可以识别模式并检测谁对战术的成功或失败至关重要。 pic.twitter.com/AU3jfJ1N7Z — 谷歌 DeepMind (@GoogleDeepMind) 2024 年 3 月 19 日 再次利用人工智能的能力,DeepMind 推出了 TacticAI,这是一个与利物浦足球俱乐部合作开发的为期三年的项目。 博客文章 作者:Zhe Wang 和 Petar Veličković,周二。 根据博客文章,TacticAI 通过结合生成式人工智能和预测式人工智能,实现了“最先进的结果”。 我们宣布推出 TacticAI:一款人工智能助手,能够为足球专家提供角球方面的见解。 ⚽ 开发与 @LFC,它可以帮助团队对替代球员设置进行采样,以评估可能的结果,并实现最先进的结果。 🧵… pic.twitter.com/8oVYtamGGe — 谷歌 DeepMind (@GoogleDeepMind) 2024 年 3 月 19 日 DeepMind 指出:“TacticAI 展示了辅助人工智能技术为运动员、教练和球迷带来革命性体育运动的潜力。” TacticAI 是一个完整的人工智能系统,使教练能够探索定位球(例如角球)的各种球员阵型。 接下来,该工具模拟这些不同策略的潜在结果,帮助教练直接评估其有效性。 🟩 […]

忘记聊天机器人吧。 人工智能代理是未来

本周一家名为 人工智能认知 发布后引起了一些轰动 演示 显示一个 人工智能 名为 Devin 的程序执行通常由高薪软件工程师完成的工作。 像 ChatGPT 和 Gemini 这样的聊天机器人可以生成代码,但 Devin 更进一步,规划如何解决问题,编写代码,然后测试和实现它。 Devin 的创建者将其称为“人工智能软件开发商”。 当被要求测试 Meta 时 开源语言模型 Llama 2 当通过托管它的不同公司访问时,Devin 生成了该项目的分步计划,生成了访问 API 和运行基准测试所需的代码,并创建了一个总结结果的网站。 评价演示总是很难,但 Cognition 已经显示 Devin 处理了各种令人印象深刻的任务。 它 令投资者和工程师赞叹不已 在 X 上,收到大量 代言,甚至受到启发 一些 模因——包括一些人预测德文很快就会成为 负责任的 科技行业裁员潮。 德文只是我一段时间以来一直在追踪的趋势的最新、最完美的例子——人工智能代理的出现,它不再只是为人类提出的问题提供答案或建议,而是可以采取行动来解决问题。 几个月前我 测试 Auto-GPT,一个开源程序,尝试通过在个人计算机和网络上执行操作来完成有用的杂务。 最近我 测试了另一个名为 vimGPT 的程序 了解新人工智能模型的视觉技能如何帮助这些代理更有效地浏览网络。 我对这些药物的实验印象深刻。 然而就目前而言,就像为它们提供动力的语言模型一样,它们也犯了很多错误。 当一款软件正在采取行动而不仅仅是生成文本时,一个错误可能意味着彻底失败,并可能带来代价高昂或危险的后果。 […]

谷歌 DeepMind 最新人工智能代理学会玩“模拟山羊 3”

“SIMA 更进一步,对新游戏表现出更强的通用性,”他说。 “环境数量仍然很少,但我认为 SIMA 走在正确的轨道上。 一种新的游戏方式 SIMA 展示了 DeepMind 为游戏代理带来了新的变化,这是该公司过去开创的一项人工智能技术。 2013 年,在 DeepMind 被谷歌收购之前,这家总部位于伦敦的初创公司 展示了一种技术如何 被称为 强化学习,其中涉及训练一种算法,对其性能进行正反馈和负反馈,可以帮助计算机玩经典游戏 雅达利视频游戏。 2016年,作为谷歌的一部分,DeepMind开发了 阿尔法围棋,一个使用相同方法的程序 击败围棋世界冠军,一种古老的棋盘游戏,需要微妙和本能的技巧。 对于 SIMA 项目,Google DeepMind 团队与多家游戏工作室合作,收集人类在 3D 环境下玩 10 种不同游戏时的键盘和鼠标数据,包括 无人深空, 拆除, 海德尼尔, 和 满意的。 DeepMind 后来在这些数据中添加了描述性标签,将点击和点击与用户所采取的操作联系起来,例如他们是寻找喷气背包的山羊还是挖掘黄金的人类角色。 然后,来自人类玩家的数据被输入到为现代聊天机器人提供动力的语言模型中,该模型通过消化巨大的文本数据库获得了处理语言的能力。 然后,SIMA 可以根据键入的命令执行操作。 最后,人类评估了 SIMA 在不同游戏中的努力,生成用于微调其性能的数据。 SIMA AI 软件使用人类玩 10 种不同 3D 环境游戏的数据进行训练。 由谷歌 DeepMind 提供 经过所有这些训练后,SIMA 能够响应人类玩家发出的数百个命令来执行操作,例如“向左转”或“前往宇宙飞船”或“穿过大门”或“砍倒一棵树”。 […]

谷歌 DeepMind 的新人工智能可以在 3D 游戏中遵循以前从未见过的命令

公布了一项新的研究,强调人工智能代理能够在 3D 游戏中执行一系列以前从未见过的任务。 该团队长期以来一直在试验可以在以下领域获胜的人工智能模型: 和国际象棋,甚至学习游戏 。 现在,根据 DeepMind 的说法,人工智能代理首次表明它能够理解广泛的游戏世界,并根据自然语言指令在其中执行任务。 研究人员与 Hello Games 等工作室和发行商合作(),燕尾服实验室()和咖啡渍( 和 )在九个游戏上训练可扩展指导多世界代理(SIMA)。 该团队还使用了四种研究环境,其中一个是在 Unity 中构建的,其中代理被指示使用积木形成雕塑。 这为 SIMA(被描述为“3D 虚拟设置的通用 AI 代理”)提供了一系列可供学习的环境和设置,以及各种图形样式和视角(第一人称和第三人称)。 研究人员在博客文章中写道:“SIMA 产品组合中的每款游戏都开辟了一个新的互动世界,包括一系列需要学习的技能,从简单的导航和菜单使用,到采矿资源、驾驶宇宙飞船或制作头盔。” 他们指出,学习遵循视频游戏世界中此类任务的指示可能会在任何环境中产生更有用的人工智能代理。 谷歌深度思维 研究人员记录了人类玩游戏的情况,并记录了用于执行操作的键盘和鼠标输入。 他们利用这些信息来训练 SIMA,它具有“精确的图像语言映射和一个可以预测屏幕上接下来会发生什么的视频模型”。 人工智能能够理解一系列环境并执行任务以实现特定目标。 研究人员表示,SIMA 不需要游戏的源代码或 API 访问权限——它适用于游戏的商业版本。 它还只需要两个输入:屏幕上显示的内容和用户的指示。 由于它使用与人类相同的键盘和鼠标输入方法,DeepMind 声称 SIMA 几乎可以在任何虚拟环境中运行。 该代理根据数百种基本技能进行评估,这些技能可以在 10 秒左右的时间内完成,涉及多个类别,包括导航(“右转”)、对象交互(“捡起蘑菇”)和基于菜单的任务,例如打开地图或制作物品。 最终,DeepMind 希望能够根据自然语言提示命令智能体执行更复杂、多阶段的任务,例如“寻找资源、建立营地”。 在性能方面,SIMA 根据多项培训标准表现良好。 研究人员在一场游戏中训练了代理(假设 模拟山羊3,为了清楚起见)并让它播放相同的标题,并将其用作性能的基准。 接受过所有九场比赛训练的 SIMA 智能体的表现远好于仅接受过训练的智能体 模拟山羊3。 谷歌深度思维 特别有趣的是,在其他八场比赛中训练然后玩另一场比赛的 […]

谷歌旗舰Gemini AI模型获得重大升级

字母表的 双子座人工智能模型 上市仅两个月,但该公司已经发布了升级版。 Gemini Pro 1.5 今天以有限的可用性推出,比其前身更强大,可以一次处理大量文本、视频或音频输入。 开发新模型的谷歌 DeepMind 首席执行官 Demis Hassabis 将其巨大的输入能力与人的工作记忆进行了比较,这是他多年前作为神经科学家探索的。 “这些核心功能的伟大之处在于它们解锁了模型可以做的一些辅助事情,”他说。 在演示中,Google DeepMind 展示了 Gemini Pro 1.5 分析阿波罗 11 号通信记录的 402 页 PDF。 该模型被要求找到幽默的部分,并突出显示几个时刻,例如宇航员说由于三明治破裂而导致通信延迟。 另一个演示展示了该模型回答有关巴斯特·基顿电影中特定动作的问题。 以前版本的 Gemini 只能用更短的文本或视频来回答这些问题。 谷歌希望新功能将使开发人员能够在该模型的基础上构建新型应用程序。 谷歌 DeepMind 的研究科学家奥里奥尔·维尼亚尔斯 (Oriol Vinyals) 表示:“模型如何在每个页面、每个单词上执行这种推理,真的感觉非常神奇。” 谷歌表示,Gemini Pro 1.5 可以一次摄取并理解一小时的视频、11 小时的音频、700,000 个单词或 30,000 行代码,比其他人工智能模型多几倍,包括 OpenAI 的 GPT-4,它的权力 聊天GPT。 该公司尚未透露这一壮举背后的技术细节。 哈萨比斯表示,谷歌 DeepMind 研究人员测试的可处理大量文本的模型的一种用途是识别包含数千条消息的 Discord […]