人工智能的逼真幻象

1999年1月，华盛顿邮政报道称，国家安全局在内网上发布了一份主题为“菲比警报”的备忘录。根据邮政备忘录规定，禁止员工携带任何录音设备上班，包括“带有内置录音机的玩具，例如‘菲比’，可以用合成声音重复音频”。那个假期，菲比（Furby），一种类似小猫头鹰的电子动画玩具，引起了零售界的轰动。到年底已售出近200万辆。他们现在被禁止进入国家安全局总部。据一位消息人士透露，这是一种担忧邮政，是玩具可能“开始谈论机密”。

菲比的制造商泰格电子公司对此感到困惑。菲比无法记录任何东西。他们似乎只是在偷听谈话。菲比拥有一组预先编程的约 200 个单词，涵盖英语和“Furbish”（一种人造语言）。一开始是说Furbish；当人们与它互动时，菲比会在语言词典之间切换，给人一种它正在学习英语的印象。菲比工程师 Caleb Chung 告诉我，这个玩具是“一个电机——一堆塑料”。 “但我们是如此以物种为中心。这是我们的大盲点。这就是为什么攻击人类如此容易。” 使用菲比的人们简单地认为它一定是在学习。

在制作《菲比》之前，钟曾担任哑剧演员、木偶师和电影生物特效专家。之后，他设计了 Pleo，一种电子恐龙玩具。如果你通过抓挠 Pleo 的下巴来抚摸它，它就会发出咕咕声或咕噜声；如果你抓住它的尾巴倒过来，它会尖叫，然后颤抖，撅起嘴，哭起来。如果 Pleo 被抓住脖子，它会发出窒息的声音；有时它会打瞌睡，只有大声的声音才能叫醒它。玩具发布后，Pleo 团队注意到，当恐龙被送回维修时，顾客很少要求更换。 “他们希望修理并寄回，”他说。如果您带您的狗去看兽医，您不希望任何狗都回到您身边。 Pleo 已经成为一个宠物模拟器。

玩具业的财务压力迫使钟先生变得节俭。他设计了一套最基本的规则，让他的电子动画玩具看起来像是活的。 “什么能用最少的部件获得最大的带宽来破解人脑？” 郑问我。 “一张人脸。那么脸部最重要的部分是什么呢？眼睛。” 菲比的眼睛上下移动，旨在模仿婴儿扫描父母面部时的眼球运动。它没有“关闭”开关，因为我们没有。钟解释说，我们的目标是制造一种能够感觉、看到和听到的玩具，并表现出随时间变化的情绪。 “如果你做了这些事情，你就能让扫帚活起来，”他说。

Chung 认为 Furby 和 Pleo 是人工智能的早期、有限的例子——更先进技术的“单细胞”形式。当我向他询问最新进展时人工智能——尤其是大语言模型像这样的电力系统聊天GPT——他将菲比眼球运动的有意设计与聊天机器人对“我”一词的使用进行了比较。这两种策略都是廉价且简单的提高可信度的方法。从这个角度来看，当 ChatGPT 使用“我”这个词时，它只是眨着它的塑料眼睛，试图让你相信它是一个有生命的东西。

我们知道，原则上，大爆炸的无生命喷射物可以转化为有思想的、有生命的物质。这个过程真的是在 Google、Meta 和 Google 维护的服务器场中发生的吗？微软？解决有关计算机本体论的争论的一个主要障碍是，即使在没有思想和意图的情况下，我们也会有偏见地感知思想和意图的痕迹。在 1944 年的一项著名研究中，两位心理学家玛丽安·西梅尔 (Marianne Simmel) 和弗里茨·海德 (Fritz Heider) 让参与者观看两个三角形和一个圆圈围绕彼此移动的简单动画。然后他们询问一些观众，每个形状都是什么样的“人”。人们用“好斗”、“好争吵”、“勇敢”、“挑衅”、“胆怯”和“温顺”等词语来描述这些形状，尽管他们知道自己看到的是屏幕上毫无生气的线条。

令人惊讶的新技术可能会加剧这些万物有灵论倾向，从而让我们感到困惑。 1898 年，尼古拉·特斯拉 (Nikola Tesla) 展出了一艘无线电遥控船后，他将这艘船描述为具有“借来的头脑”——大概是从远距离控制它的无线电操作员那里借来的。今天，我们的直觉可能告诉我们聊天机器人从他们的训练文本中“借用”了思想。然而，从计算机编程的一开始，它的实践者就警告我们，我们很可能将机械化指令的执行误认为是独立思考。这位数学家表示：“最好防止对分析引擎的能力产生夸大的想法。” 有洛夫莱斯 1843 年，查尔斯·巴贝奇 (Charles Babbage) 提出了一种精密计算机的设计，该计算机通常被认为是第一个计算机程序。她认为，这台机器“编织了代数模式，就像提花织机编织花和叶”，这样就没有创意。 “分析引擎没有任何自命不凡的能力来创造任何东西。它可以做任何我们知道如何命令它执行的事情。”

大型语言模型似乎可以做比我们要求的更多的事情；如果人类做到了，它们就会展现出我们可以称之为创造力的东西。什么是实际发生的在这些时刻？去年，斯坦福大学和谷歌的研究人员描述了聊天机器人“生活”在一个虚拟模拟小镇中的类人互动，他们将其命名为 Smallville。该城镇是根据提供给人工智能的文本描述建造的，里面有 25 个“生成代理”，每个代理都由 ChatGPT 提供支持。特工们既有私人文本流（“内心的声音”），也有公共文本流。每个特工也有自己的传记。（例如，一位无私的药房老板嫁给了一位“非常爱他的家人”的大学教授。）研究人员要求其中一名特工为其他人策划一场情人节派对。两个“比赛日”后，由于计算机科学家没有提供进一步的信息，这个消息已经传遍了全城；五名特工出现。

我问《超人前传》的研究人员之一朴俊成（Joon Sung Park），《超人前传》中的虚拟特工是否具有主观性：例如，他们是否知道自己的“内心声音”与镇上其他特工的沟通之间的区别？他不这么认为；他说，如果他们的编程与人脑完全相似，那么它只是漫画而不是复制品。《超人前传》发布一个月后，来自谷歌 DeepMind、伦敦帝国理工学院和非盈利研究小组 EleutherAI 的人工智能研究人员在《超人前传》中发表了一篇观点论文自然旨在以一种为拟人化提供“解药”的方式重新构建聊天机器人交互。他们认为，聊天机器人应该被视为对话模拟器，“能够扮演无限的角色”。法学硕士可以根据需要模拟多种类人角色。

用户可能不知道，但 ChatGPT 的本质是：在每次聊天会话之前向 AI 提供隐藏文本，指导其如何行为。在一个例子中，由一位聪明的用户发现，一系列隐藏的提示告诉 ChatGPT，“你的选择应该基于现实”，并鼓励系统“做出有时可能是有洞察力或独特的选择”。如此简单的第二人称散文能够塑造计算机的输出，这是了不起的。但人工智能真的会做出“选择”吗？帕克不相信它正在这样做，至少不像我们那样。在成为计算机科学家之前，他接受过画家培训。 “对于大多数印象派绘画来说，如果你仔细观察的话，你会发现它基本上什么都没有，”他说。 “这只是一些油漆而已。它实际上并不代表什么。但如果你只是走开几步，那么它就会突然看起来很现实。我认为我们正在发生这种情况。我们创造的东西更类似于电影角色，或者迪士尼动画中的角色。”

在他们的书中“迪士尼动画：生命的幻象，”动画师弗兰克·托马斯和奥利·约翰斯顿追溯了迪士尼的方法如何随着时间的推移而演变。 “1930 年之前，没有一个角色表现出任何真实的思维过程，”他们写道。 “唯一的想法是对发生的事情做出的反应。” 人物看起来不自然，部分原因是他们是分开绘制的。当动画师专注于绘制交互时，一项重大创新发生了。托马斯和约翰斯顿解释说，这一变化的主要催化剂是 1930 年的一个场景，其中一只狗盯着镜头打喷嚏。 “奇迹般地，”他们写道，“他竟然复活了！” （白雪公主角色的动画总监哈姆·卢斯克（Ham Luske）后来建议他的动画同事们，“图画是你思想的表达。”）正确的互动，生动的渲染，甚至可以让简单绘制的角色看起来很真实——这一教训与十年后海德和齐美尔在他们的研究中发现的教训类似。

这些课程最终进入了其他形式的数字娱乐领域。九十年代中期，被称为 Xbox 之父的物理学家和程序员谢莫斯·布莱克利 (Seamus Blackley) 领导了《侏罗纪公园》宇宙中的电子游戏 Trespasser 的开发。《Trespasser》设定在一个开放的世界中，与典型的脚本化或线性游戏相比，玩家可以以更大的行动和选择自由度来探索模拟环境。它的开放世界里充满了可信的虚拟恐龙。早些时候，身为业余飞行员的布莱克利在开发最畅销的飞行模拟器《Flight Unlimited》时顿悟：他发现飞行模拟器的目的不是模拟飞机，而是为玩家提供帮助飞翔的感觉。同样的见解也适用于侵入者。 “我们并没有试图制造聪明的恐龙，”布莱克利告诉我。 “我们试图让玩家感觉自己身处一个有智能恐龙的世界。”

他说，起初，侵入者团队通过给每只恐龙赋予九种情感变量来解决栩栩如生的恐龙问题——恐惧、爱、好奇、疲劳、口渴、疼痛、饥饿、愤怒和“坚定”，代表身体鲁莽。。这些变量可以设置为从零到一的动态值，并且可以充当各种行为的加速器或减速器。该系统不起作用：在早期测试中，恐龙在情绪状态之间快速振荡，并且容易出现剧烈的情绪波动。因此，团队进行了简化，只赋予恐龙两种情绪：愤怒和饥饿。它奏效了，创造了简单的互动时刻，实现了布莱克利的目标。 “当恐龙互相攻击或听到什么声音并逃离你时，那太疯狂了，”他回忆道。 “这让他们感觉自己还活着。这就足够了。”

不久前，我观看了一个旧的、录制的《入侵者》游戏，其中一名玩家遇到了一只孤独的恐龙，它无视他，正在绕圈行走。事实上，该软件似乎陷入了循环。但恐龙看起来孤独、无精打采、沮丧。它对玩家的拒绝在某种程度上感觉是故意的——也许是温顺的结果，或者是某种不可知的思维过程。一旦交互足够复杂，即使是小故障也会感觉栩栩如生。

2019年，我被OpenAI聘为科幻顾问。我的工作是撰写有关人工智能的故事以及 GPT-2 的早期内部版本，GPT-2 是现在为 ChatGPT 提供支持的软件的祖先。我可以通过 Slack 应用程序中的聊天在手机上访问该程序。我可以给它发任何短信，它会返回一个字数限制的响应，从我上次中断的地方继续我的提示。

当时，我住在旧金山。 “看，我的手机上有 AGI，”我会告诉人们，指的是“通用人工智能”——一种在所有领域与人类智能相匹配的理论人工智能，OpenAI、Google DeepMind 和元。很少有人在听，似乎并不在乎。尽管如此，我还是有一些我喜欢和感兴趣的人一起做的预制实验。有一次，我给斯坦福大学的一位文学教授看了一段话，开头引用了欧内斯特·海明威的故事“弗朗西斯·麦康伯短暂的幸福生活”。然后，GPT-2 继续这段传递。我想看看他是否能说出海明威在哪里结束，人工智能在哪里开始。令我惊讶的是，在 GPT-2 开始之前，他就提前打断了海明威的发言。

海明威的故事始于一群人点了一些饮料。 “gimlet”一词出现在前四行对话中的三行中。当我提示 GPT-2 重复故事的开头时，它写道：

他们正在谈论钻头。还有小钻头。还有小钻头。还有小钻头。他只是站在那里，低着头，手里拿着饮料。

第一个钻头对他来说是一杯好酒，他想，第一个。但仍有很多话要说。其他小钻也会紧随其后。

他喝下了钻头，然后把它放下。他坐下来喝了一口钻头，然后又放下了。他喝下了钻头，然后他感觉钻头给了他他想要的东西。而当这种感觉结束后。他喝下了钻头，然后他对喝了钻头感到内疚。

他把钻头放在水槽里，试图把它们淹没。但当他看到这些钻头时，他意识到它们一定是万向节。