OpenAI 的新视频生成工具可以从婴儿身上学到很多东西 | 约翰·诺顿

”F首先是文字,然后是图像,现在 OpenAI 有一个生成视频的模型,”尖叫道 可混搭 另一天。 ChatGPT 和 Dall-E 的制造商 刚刚宣布索拉,文本到视频的扩散模型。 整个网络上都出现了关于毫无疑问将被称为 T2V 的激动人心的评论,涵盖了通常的范围——从“这是否标志着 [insert threatened activity here]?”到“meh”以及介于两者之间的所有内容。

Sora(这个名字在日语中是“天空”的意思)并不是第一个 T2V 工具,但它看起来比 Meta 等早期的工具更加复杂 制作视频人工智能。 它可以 将简短的文字描述变成详细的高清电影剪辑 长达一分钟。 例如,提示“一只猫叫醒了熟睡的主人,要求吃早餐”。 主人试图忽视猫,但猫尝试了新的策略,最后,主人从枕头底下拿出了他秘密藏匿的零食,以拖延猫一段时间。”制作了一段流畅的视频剪辑在任何社交网络上病毒式传播。

可爱吧? 好吧,在某种程度上。 开放人工智能 对于该工具的局限性似乎一反常态地坦诚。 例如,它可能“难以准确模拟复杂场景的物理原理”。

这是温和的说法。 样本集中的一个视频说明了该模型的困难。 生成影片的提示是“Photorealistic closeup video of 两艘海盗船互相争斗 当他们在一杯咖啡中航行时”。 第一眼看上去,令人印象深刻。 但随后人们注意到其中一艘船以一种难以解释的方式快速移动,很明显,虽然索拉可能对液体中的光反射了解很多,但它对控制大帆船运动的物理定律知之甚少或一无所知。

其他限制:索拉对于因果关系可能有点模糊; “一个人可能会咬一口饼干,但之后,饼干可能不会有咬痕”。 啧啧啧。 它还可能“混淆提示的空间细节,例如混淆左右”。 等等。

尽管如此,这只是一个开始,毫无疑问,随着另一个开始,它会变得更好 十亿万亿次浮点运算 的计算能力。 尽管好莱坞制片厂的老板们可以继续在他们的特大号床上安然入睡,但 Sora 很快就会足以取代某些类型的库存视频,就像 Midjourney 和 Dall-E 等人工智能正在取代 Shutterstock 类型的摄影一样。

尽管 OpenAI 在该工具的局限性方面做出了让步,但 OpenAI 表示 Sora“可以作为能够理解和模拟现实世界的模型的基础”。 据称,这将是实现通用人工智能(AGI)的一个“重要里程碑”。

这就是事情变得有趣的地方。 请记住,OpenAI 的企业目标是实现 AGI 的圣杯,该公司似乎相信生成式人工智能代表了朝着这一目标迈出的切实一步。 问题是,实现 AGI 意味着制造出对现实世界的理解至少与我们的水平相当的机器。 除此之外,这需要了解运动物体的物理学。 因此,OpenAI 项目的隐含赌注似乎是,有一天,如果有足够的计算能力,能够预测像素在屏幕上如何移动的机器也将了解它们所描绘的物理对象在现实生活中的行为方式。 换句话说,这是一个赌注,机器学习范式的外推最终将使我们获得超级智能机器。

但能够驾驭现实世界的人工智能需要了解的不仅仅是物理定律在现实世界中的运作方式。 他们还需要弄清楚人类如何在其中运作。 以及所有关注过的人 艾莉森·戈普尼克的作品,对于目前被世界视为“人工智能”的机器来说,这看起来有点夸张。

戈普尼克因其对儿童学习方式的研究而闻名。 看着她的特德演讲, 婴儿在想什么?对于那些认为技术是情报问题答案的技术人员来说,这将是一次有益的经历。 数十年的研究探索了婴儿在玩耍时进行的复杂的情报收集和决策,她得出这样的结论:“婴儿和幼儿就像人类的研发部门”。 这位专栏作家花了一年的时间观察我们孙女第一年的发育,特别是观察她如何开始找出因果关系,他倾向于同意这一观点。 如果 Sam Altman 和 OpenAI 的人真的对 AGI 感兴趣,也许他们应该花一些时间与婴儿相处。

我一直在读什么

算法政治
亨利·法雷尔 (Henry Farrell) 写了一篇开创性的文章 人工智能的政治经济学

机器人习惯
有一个 反光片 在里面 大西洋 作者:Albert Fox Cahn 和 Bruce Schneier,讲述聊天机器人将如何改变我们的交谈方式。

没有来电
科幻小说作家查理·斯特罗斯 (Charlie Stross) 写了一篇博文 为什么英国不能实行征兵制,即使它愿意。

2024-02-24 16:00:31
1708839810

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​