AGI——国际象棋有着千年的历史,但在人工智能领域仍然发挥着决定性的作用。 从第一个 IBM 模型开始,国际象棋引擎的发展在各种机器学习和深度学习模型的应用中一直很重要,正如 Quanta 杂志上的一篇文章所解释的那样,它可能在以下方面发挥非常积极的作用: 一种称为“人工头脑风暴”的新型方法”。
但我们还是按顺序来吧。 这个故事的中心是一个男人, 汤姆扎哈维以色列计算机研究员就职于r DeepMind, 和一辆车, 阿尔法零 “多样化版本”,专门为解决更广泛的工具箱问题而开发,顾名思义,其组件多样化。
拼图的重要性
扎哈维和许多爱好者一样,在疫情期间重新发现了国际象棋,特别是深入研究了与引擎、人工智能和计算机解决游戏最复杂方面的能力相关的问题。 和许多人一样,他意识到自己更擅长解决单个“谜题”,而不是真正的游戏。 也就是说,他明白自己擅长从特定的位置出发找到所谓“问题”的答案,这些问题通常来自真实的游戏,但也来自人为的和不可能的想法,并且通常有助于完善游戏的质量。国际象棋棋手对战术和对游戏的理解的主题。
但谜题在国际象棋引擎的开发中也至关重要,因为随着时间的推移,它们有助于揭示其最隐藏的局限性。 而这也是扎哈维的出发点。 “我试图理解为什么其中一些问题对于计算机来说如此困难,而至少其中一些问题是可以由人类解决的。” 在支持这篇论文时,他引用了 一个非常著名的谜题,由数学家 Roger Penrose 在 2017 年创建 (2020 年诺贝尔物理学奖),其中最强的黑棋(例如皇后和车)被排列在棋盘上,但放置在不太容易阅读的“方格”中。
伟大的棋手在下白棋时可以轻松地平局,而强大的国际象棋程序如果不能完全掌握这些可能性,就会推断出黑棋有明显的优势,因此可以赢得胜利。 扎哈维认为,这种分析上的差异表明,尽管计算机能够击败最好的“人类”玩家, 在认识和解决某类问题上仍然存在一些局限性。 他克服这些困难的想法非常简单:设计配备多种可能行为的人工智能系统,旨在克服基于单次执行的模型。 最重要的是,他们“作为一个团队”努力取得进展并找到最佳解决方案。
在一些同事的帮助下,Zahavy 开发了一个模型,将多个人工智能系统组合在一起,最多 10 个,从现有最强大的算法 AlphaZero 开始。 这些系统 他们都具有强烈的决策印记 但每个都经过优化和训练以采用不同的策略。 这个新模型不仅在经典游戏中比 AlphaZero 表现得更好,而且更擅长解决彭罗斯提出的复杂问题。
所有这一切都以最简单的方式进行:当系统发现自己面临着无法逾越的“墙”时,程序就会继续前进,直到找到最有效的方法来阻止障碍。 不难理解所有这些如何应用于国际象棋之外的情况,以证明在所有处理人工智能的算法的开发中非常有用。
今日谜题:除了赢得诺贝尔物理学奖外,罗杰·彭罗斯还想了解什么是意识。 于是他创造了一个国际象棋拼图。 世界上最快的计算机认为黑棋获胜,但人类可以立即发现白棋的平局。 白色可以玩耍和绘画。 pic.twitter.com/65q3bsi3yL
— 詹姆斯·阿尔图彻 (@jaltucher) 2020 年 10 月 7 日
国际象棋引擎如何思考(到目前为止)。
扎哈维一直对所谓的“强化学习”,即使用神经网络通过反复试验来学习某些任务、感知和理解周围环境并在每个新里程碑处获得“奖励”的系统。 它是最强大的国际象棋程序的基础,但它也用于许多其他领域,例如自动驾驶汽车。 引擎越来越深入地了解棋盘上的情况和可能的“候选动作”,即那些因为被认为更强而被考虑的动作。 那时,他能够采取越来越精确的行动来接近最终目标,积累“奖励”并提高绩效。
例如,Deepmind 解释了 AlphaZero 如何成为从 2017 年开始的漫长改进过程的主角,在训练的前 9 小时内与自己进行了 4400 万场比赛。 而也正是这无穷无尽的考验和尝试,让他比任何真正的棋手都要强大。
Romualdo Vitale,Chess.com 意大利总监, 最知名和最常用的在线平台毕业于数学专业,发表了一篇关于强化学习和 Alphazero 的论文,在 AGI 上他谈到了它的潜力和局限性。 “当 AlphaZero 在 2017 年发布时,它震惊了国际象棋界,但棋手们并没有真正意识到它的革命程度。
一些大师(GM),包括中村光(Hikaru Nakamura),在面对与 Stockfish(另一个强大的引擎,编辑)的比赛时仍然持怀疑态度,因为他们声称后者被削弱了。 但他们不明白这一点 问题的关键在于基于强化学习的创新方法 以及与自己进行无数次的对抗,而不是关于这个挑战是否正确。”
这一点并没有逃过人工智能专家的注意。 “他们了解通过简单的技术带来优异结果的方法的重要性。 强化学习的问题在于必须建立良好的奖励系统,否则就会存在漏洞的风险,这可以通过彭罗斯问题来精确表示”,Vitale 解释道。 “为给予积极奖励而建立的机制可能会导致对职位的高估,并且无法掌握职位本身固有的一个方面,这可能需要大量的抽象能力。 仅通过计算或经验无法理解这一方面。”
有点像 Alphazero 所做的:“当他发现自己处于某个位置时,他开始与自己玩很多游戏来理解它。但是,通过创建一个评估位置的单一算法,在某些情况下,无法达到必要的深度,并且可能会出现错误的评估,这种情况经常发生在“堡垒”的情况下,例如国王和王后对抗国王、车和棋子,移动者可以提供实际上并不存在的优势。”
强化学习的力量
Chess.com 的意大利总监强调说,它是“一个非常强大的工具,因为它允许您创建人工智能,即使在未知或只能部分观察的环境中也能够做出决策”。 “你可以在国际象棋中准确地观察到这一点。 我们无法通过告诉引擎采取最佳行动来指示它,因为我们不知道最佳行动是什么。 但我们可以告诉他“他和自己玩了无数次”,并用游戏的最终得分作为你奖励的基础来得出结果。 这种方法使得国际象棋非常有用,可以作为其他实验的试验台,因为你有一个非常明显、简单的奖励。 自动驾驶汽车教育的奖励制度将会复杂得多。”
然而,理解这个过程的最简单的例子是著名的打扫房间的机器人。 “它们经过预先训练,可以防止它们随机旋转或自行旋转,但当它们发现自己处于新环境中时,例如购买它们的人的家中,它们很快就会感觉到环境有多大。 这就是强化学习的力量。 创造可以在受控环境中进行训练但在新环境中使用时能够很好适应的机器”。
我限制强化学习'
对于 Vitale 来说,在谈论这些系统时还需要考虑另一个因素。 “我们必须记住,它们可能会在特定领域被拒绝。 人工智能公司的目标是创建强化学习算法 能够同时解决越来越多的问题。 它适用于所有两人游戏,例如将棋、国际象棋和围棋。 例如,2017 年之后的新版本 Stockfish 也包含了神经网络。 然而,国际象棋棋手试图针对其特定的棋风优化总体表现,因此使用其他训练策略,例如插入开局书和残局数据库。 这是根本性的,因为 AlphaZero 的版本称为 LeelaChess,与 Stockfish 不同,它不能完美地玩残局”。
这一点可以通过仔细观察Chess.com上的汽车锦标赛比赛来理解。 “在一场比赛中,Stockfish 在困住塔后输给了 LeelaChess,即使对于意识到这一点为时已晚的机器来说,这是一个深刻的想法。 但有趣的是,LeelaChess Zero 并没有以最干净、最线性的方式获胜。 他已经压垮了对手,但他并没有立即将死,而是决定牺牲一些棋子,因为他知道无论如何他已经赢得了比赛。”
扎哈维的团队意识到,“强化学习”虽然有效,但并不能带来对游戏的总体理解。 这就是为什么像彭罗斯这样的复杂问题仍然可以代表一种盲点,一个能够让 AlphaZero 这样的高度先进的公司陷入困境的障碍。 简而言之,引擎在处理以前从未见过且没有经验的问题时可能会陷入危机。
这正是创造力因素和“失败的重要性”发挥作用的地方。 根据扎哈维的说法 使用深度强化学习的系统不知道如何识别失败的概念,人类解决问题的基本方法。 事实上,如果人类明白一条道路是错误的或不成功的,他就会尝试走另一条道路。
另一方面,如果人工智能系统没有意识到自己已经完成了训练的任务,那么它可能会顽固地走同样的道路,继续做它一直在做的事情,追求不成功的策略,并总是发现自己面临着挑战。同样的旧墙。 就像彭罗斯问题一样。 之所以会发生这种情况,是因为推动者将自己的选择视为实现更大目标的理想步骤。 在某些情况下,如果不尝试新事物就无法实现这一目标。
人工智能的“头脑风暴”
“创造力是人类的一种品质,”卡斯帕罗夫在他的《深度思考》一书中声称,该书分析了与深蓝的比赛。 而这正是 Zahavy 决定遵循的方向: 创造力往往源自头脑风暴活动,这些活动超出了孤独智力所采用的正常方法。 这也可能适用于与国际象棋引擎相关的人工智能,它们习惯于借鉴以前的经验,从头到尾专注于赢得整场比赛。
正如我们所看到的,这种方法在解决具有一定复杂性且没有更广泛背景的个别问题时并不是那么有效。 因此,这位以色列研究人员想象了一种能够解决难题的人工智能,这要归功于更大的创造性空间,可以集思广益并获得新的学习形式。
DeepMind 团队因此收集了一系列 53 个彭罗斯谜题和 15 个其他具有特殊难度的谜题。 AlphaZero(“经典版本”)解决了不到 4% 的第一个问题和不到 12% 的剩余问题,但研究人员并不太惊讶,因为这些练习旨在迷惑计算机。 当引擎被训练为从每个谜题作为起始位置开始玩整个游戏时,解决的问题数量明显增加:96% 的彭罗斯谜题和 76% 的秒数。
根据该数据, Zahavy 领导的团队构建了一个可以访问所有版本的 AlphaZero 的人工智能,经过独立训练来解决所有这些职位。 注定要管理整个系统的算法会不时地了解哪种智能最有成功的机会,通过在可用工具中做出最佳选择并表现得好像这是一个共同的决定。 在该算法的代码中,还有一个特定的“奖励”,每次从大量可能性中提取所选策略时都会提供该“奖励”。
对AlphaZero(多样化版本)行为的观察还导致了其他有趣现象的发现:鲜为人知的国际象棋开局的实验和特定的战略选择,例如何时何地城堡的决定。 Zahavy 解释说,随着选择越来越多新款AlphaZero在面对复杂情况时有更多选择。 这是一个可以在许多领域找到应用的机会,不仅可以在对国际象棋游戏的理解上,而且可以在我们的未来方面实现质的飞跃。
象棋能解决吗?
“我们距离解决国际象棋游戏还很远。 引擎锦标赛向我们表明,仍然有可能获胜。 它们仍然是一款内容丰富的游戏,即使是 Elo 分数比我们高得多的智能体也可能会犯错误”,Vitale 解释道。
从这个意义上说,像彭罗斯这样的谜题继续发挥着关键作用。 “有趣的是,人类不断尝试创造反运动的姿势,而对于运动来说,选择似乎是无穷无尽的。 从这个角度来看,我们的利润是 能够看到超出特定位置所给出的动作序列的具体分析的深刻想法”。 简而言之,创造力是卡斯帕罗夫所喜爱的技能,目前仍将国际象棋棋手与人工智能区分开来。
1713096316
#谷歌人工智能超级团队的革命
2024-04-12 12:12:27