50,000小时后,这个AI可以玩《精灵宝可梦红》

大约10年前,网络现象“Twitch 玩神奇宝贝” 召集超过一百万人同时玩《神奇宝贝红》,每个玩家的击键都会记录为一个像素化头像的命令。 现在,就像鲤鱼成长为暴鲤龙一样,技术的发展引出了一个新问题:人工智能可以玩神奇宝贝吗?

在过去的几年里,西雅图的软件工程师 彼得·惠登 一直在训练强化学习算法来导航神奇宝贝系列的经典第一款游戏——当时,人工智能已经玩了超过 50,000 小时的游戏。 惠登发布 33 分钟的 YouTube 视频讲述了人工智能的发展故事,9 天后,该视频的观看次数已达到 220 万次。

“最有趣的是看到有这么多人参与其中,”惠登告诉 >。 他将所使用的代码以及如何操作和训练人工智能的说明上传到了 GitHub。 “有很多人似乎对实际进行这个创造或设计过程非常感兴趣。” 一位粉丝能够将他的代码应用到另一款复古 Game Boy 游戏《精灵宝可梦水晶》中。

人工智能的强化模型是巴甫洛夫式的,给予人工智能基于积分的激励来升级神奇宝贝、探索新领域、赢得战斗并击败道馆领袖。 有时,这些激励措施并不完全符合游戏的进展,但人工智能的失败却异常迷人,这可能就是惠登视频如此火爆的原因。

在人工智能的一次尝试中,它只是停下来盯着托盘镇(游戏中你访问的第一个地方)的水,并且一动不动。 它被困在一个有动画水、草和来回踱步的 NPC 的区域,这意味着每个单独的帧对于 AI 来说似乎都是一种新颖的体验,尽管它只是一动不动地坐着,甚至还没有获得第一个神奇宝贝。 但这个人工智能并不急于“抓住所有人”。 它只是在享受关东地区的美景(或者也许它采取了道德立场,反对强迫这些可爱的小动物互相争斗……谁知道呢)。

“因此,根据我们自己的目标,仅仅闲逛并欣赏风景比探索世界其他地方更有价值,”惠登在视频中解释道。 “这是我们在现实生活中遇到的一个悖论:好奇心引导我们发现最重要的发现,但同时,它也让我们容易受到干扰并陷入麻烦。”

人工智能以某种方式继续牵动我们的心弦:后来,它经历了类似于神奇宝贝中心的创伤事件。 人工智能的成功部分取决于队伍中所有神奇宝贝的总等级。 但是,当人工智能进入神奇宝贝中心并按下按钮足以将神奇宝贝存入存储时,所有级别的总和会急剧下降,从而向人工智能发出强烈的负面信号。 波奇和一个绰号为“AAAAAAAAA”的不明生物在其队伍中,所有级别的总和为 25,但一旦波奇存入电脑,总级别仅为 12。

“它不像人类那样有情感,但具有极端奖励值的单一事件仍然可以对其行为产生持久的影响,”惠登叙述道。 “在这种情况下,仅仅失去一次神奇宝贝就足以与整个神奇宝贝中心形成负面关联,而人工智能将在以后的所有游戏中完全避免这种情况。”

图片来源: 彼得·惠登在 YouTube 上的表现

尽管人工智能能够体验创伤并欣赏托盘镇的漂亮像素,但它仍然只是一台计算机。 该人工智能无法阅读和解释游戏中的对话,因此在早期迭代中,程序会陷入游戏的早期十字路口。 当您到达《神奇宝贝红》中的第二个城镇时,您会收到一件物品,可以带回给托盘镇的神奇宝贝教授。 但人工智能很难回溯交付包裹,因此无法进一步推进。 因此,惠登在交付包裹后跳过了每场游戏的开始,并用杰尼龟作为人工智能的起始神奇宝贝,因为早期的游戏通常会更容易,有水神奇宝贝为你服务。

“在视频中,最远的 [the AI] 到达第一和第二体育馆之间的月亮山,”惠登告诉 >。 在早期的《神奇宝贝》游戏中,即使你有一个真正的人类大脑,在洞穴中导航也是出了名的令人沮丧。 但惠登最近调整了代码中的一些奖励,并尝试了不同的学习算法,最后,人工智能成功地离开了洞穴,到达了华蓝城。

其他研究人员使用强化学习来研究人工智能在游戏中的应用,例如 DeepMind 的 AlphaGo,这是第一个击败职业围棋选手的计算机程序。 但惠登的视频之所以引起如此多的关注,是因为他非常擅长通过熟悉的媒介:神奇宝贝来解释不熟悉的概念。

2023-10-18 19:10:17
1713727424

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​