游戏学生:DeepMind AI 可以在国际象棋、围棋和扑克方面击败顶尖人类

我们玩个游戏吧?

麦库尔/阿拉米

单个人工智能可以在国际象棋、围棋、扑克和其他需要多种策略才能获胜的游戏中击败人类玩家。 这款名为“Student of Games”的人工智能由谷歌 DeepMind 创建,该公司表示,这是朝着能够以超人性能执行任何任务的通用人工智能迈出的一步。

马丁·施密德曾在 DeepMind 从事人工智能工作,但现在在一家名为 EquiLibre Technologies 的初创公司工作,他表示,游戏学生 (SoG) 模型的血统可以追溯到两个项目。 一个是 深栈,由加拿大阿尔伯塔大学施密德等团队创建的人工智能,是第一个在扑克比赛中击败人类职业玩家的人工智能。 另一个是 DeepMind 的 AlphaZero,它在诸如此类的游戏中击败了最好的人类玩家 国际象棋和围棋

这两种模型之间的区别在于,一种专注于不完美知识游戏——玩家不知道所有其他玩家的状态,例如扑克牌中的手牌——另一种专注于完美知识游戏,例如国际象棋,其中两者都玩家可以随时看到所有棋子的位置。 两者需要根本不同的方法。 DeepMind 聘请了整个 DeepStack 团队,目的是构建一个可以泛化两种类型游戏的模型,这导致了 SoG 的创建。

Schmid 表示,SoG 最初是作为如何学习游戏的“蓝图”,然后通过练习进行改进。 然后,这个入门模型可以在不同的游戏中自由发挥,并教会自己如何与自己的另一个版本对战,学习新策略并逐渐变得更有能力。 但是,虽然 DeepMind 之前的 AlphaZero 可以适应完美知识游戏,但 SoG 可以适应完美和不完美知识游戏,从而使其具有更强的普适性。

研究人员在国际象棋、围棋、德州扑克和一种名为“苏格兰场”的棋盘游戏以及 Leduc 德州扑克和带有不同棋盘的苏格兰场定制版本上测试了 SoG,发现它可以击败几个现有的人工智能模型和人类玩家。 施密德说它也应该能够学习玩其他游戏。 “你可以直接玩很多游戏,它会非常非常擅长。”

与 DeepMind 更专业的算法相比,这种广泛的能力在性能方面付出了轻微的代价,但 SoG 仍然可以在它学习的大多数游戏中轻松击败甚至最好的人类玩家。 施密德说,SoG 学会与自己对战,以便提高游戏水平,同时也从游戏的当前状态探索可能的场景范围——即使它是在玩不完全知识的游戏。

“当你玩扑克这样的游戏时,你会很难弄清楚; 我到底要怎么寻找 [for the best strategic next move in a game] 如果我不知道对手拿着什么牌呢?” 施密德说。 “因此,有一些来自 AlphaZero 的想法,还有一些来自 DeepStack 的想法,融入了这个巨大的想法组合中,这就是游戏的学生。”

迈克尔·罗瓦索斯 英国爱丁堡大学的一位未参与这项研究的人表示,虽然令人印象深刻,但在人工智能被认为具有普遍智能之前还有很长的路要走,因为游戏是所有规则都存在的环境。与现实世界不同,行为是明确定义的。

“这里要强调的重要一点是,这是一个受控的、独立的人工环境,其中一切的含义以及每个行动的结果是什么,都是一目了然的,”他说。 “这个问题只是一个玩具问题,因为虽然它可能非常复杂,但它不是真实的。”

主题:

See also  法兰西岛:本地频道 20 分钟电视从 IDF1 接管

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​