OpenAI 借助逼真的 AI 视频生成器 Sora 颠覆了媒体现实

放大 / 使用 OpenAI 的 Sora 生成的三个视频的快照。

周四,OpenAI 宣布 索拉,一种文本到视频的 AI 模型,可以根据书面描述生成 60 秒长的逼真高清视频。 虽然这只是我们尚未测试的研究预览,但据报道,它创建的合成视频(但还不是音频)的保真度和一致性高于目前可用的任何文本到视频模型。 也让人心惊胆战。

“很高兴认识你们大家。请告诉您的孙子们我的视频以及我们实际录制它们所花费的时间。” 写道 《华尔街日报》科技记者乔安娜·斯特恩 (Joanna Stern) 报道 X.

“这可能是人工智能的‘神圣时刻’,” 写道 The Verge 的汤姆·沃伦。

“这些视频中的每一个都是人工智能生成的,如果这至少让你一点也不担心,那就没什么了,” 发推文 YouTube 科技记者 Marques Brownlee。

作为未来的参考——因为这种恐慌有一天会显得荒谬——有一代人在成长过程中相信照片级真实感视频必须由相机制作。 当视频被伪造时(例如好莱坞电影),需要花费大量的时间、金钱和精力来做到这一点,而且结果并不完美。 这给了人们一种基本的安慰,让他们相信他们远程看到的东西可能是真实的,或者至少代表了某种潜在的真相。 即使当孩子 跳过熔岩,至少有一个孩子和一个房间。

生成上面视频的提示:“电影预告片讲述了30岁太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天、盐漠,电影风格,35毫米胶片拍摄,色彩鲜艳。

像 Sora 这样的技术将这种媒体参考框架拉了出来。 很快,你在网上看到的每一个逼真的视频在各个方面都可能是 100% 错误的。 而且,你看到的每一个历史视频也可能是假的。 作为一个社会,我们如何面对这一问题并解决它,同时保持对远程通信的信任远远超出了本文的范围,但我尝试了 提供一些解决方案 回到 2020 年,当时我们所看到的所有技术对大多数人来说似乎都是遥远的幻想。

在那篇文章中,我将媒体中的真实与虚构变得难以区分的时刻称为“文化奇点”。 看来 OpenAI 有望比我们预期早一点实现这一预测。

迅速的: 穿过东京郊区的火车窗外的倒影。

OpenAI 发现,与其他使用 Transformer 架构的 AI 模型一样,Sora 可根据可用计算进行扩展。 如果幕后的计算机功能更加强大,人工智能视频的保真度可能会随着时间的推移而显着提高。 换句话说,这是人工智能生成的视频有史以来看起来“最糟糕”的。 目前还没有同步声音,但这可能会在未来的模型中得到解决。

(我们认为)他们是如何成功的

AI视频合成这两年取得了突飞猛进的发展。 我们于 2022 年 9 月首次介绍了文本转视频模型 Meta 的制作视频。 一个月后,谷歌展示了 图片视频。 就在 11 个月前,人工智能生成的版本 威尔·史密斯吃意大利面 病毒式传播。 去年 5 月,之前被认为是文本转视频领域领跑者的 Runway Gen-2 帮助制作了一个 假啤酒广告 充满扭曲的怪物,以两秒的增量生成。 在早期的视频生成模型中,人们轻松地进出现实,四肢像意大利面一样流动在一起,物理似乎并不重要。

Sora(日语中的意思是“天空”)似乎完全不同。 它具有高分辨率 (1920×1080),可以生成持续长达 60 秒的具有时间一致性(随着时间的推移保持同一主题)的视频,并且看起来非常保真地遵循文本提示。 那么,OpenAI 是如何实现这一目标的呢?

OpenAI 通常不会与媒体分享内部技术细节,因此我们只能根据专家的理论和向公众提供的信息进行推测。

OpenAI 说 Sora 是一个扩散模型,很像 从-E 3稳定扩散。 该公司解释说,它从噪声开始生成视频,然后“通过多个步骤消除噪声来逐渐改变视频”。 可以说,它“识别”书面提示中列出的对象和概念,并将它们从噪音中拉出来,直到出现一系列连贯的视频帧。

Sora 能够根据文本提示一次性生成视频、扩展现有视频或从静态图像生成视频。 正如 OpenAI 所说,它通过同时为模型提供许多帧的“预见”来实现时间一致性,解决了确保生成的主题即使暂时不在视野中也保持不变的问题。

OpenAI 将视频表示为称为“补丁”的较小数据组的集合,该公司表示,这类似于 GPT-4 中的标记(单词片段)。 该公司写道:“通过统一我们表示数据的方式,我们可以在比以前更广泛的视觉数据上训练扩散变压器,涵盖不同的持续时间、分辨率和纵横比。”

OpenAI 的一大堆技巧中的一个重要工具是它对人工智能模型的使用 复利。 早期的模型正在帮助创建更复杂的模型。 索拉很好地遵循了提示,因为, 像达尔-E 3,它利用合成字幕来描述另一个人工智能模型生成的训练数据中的场景,例如 GPT-4V。 该公司并没有就此止步。 OpenAI 写道:“Sora 是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现 AGI 的重要里程碑。”

许多人心中的一个问题是 OpenAI 使用哪些数据来训练 Sora。 OpenAI 尚未透露其数据集,但根据人们在结果中看到的内容,除了真实视频源(例如从 YouTube 抓取或从股票视频获得许可)之外,OpenAI 可能还使用视频游戏引擎中生成的合成视频数据图书馆)。 Nvidia 的 Jim Fan 博士是使用合成数据训练人工智能的专家,他在 X 上写道:“如果 Sora 使用虚幻引擎 5 接受大量合成数据的训练,我不会感到惊讶。一定是这样!” 然而,在 OpenAI 证实之前,这只是猜测。

2024-02-16 17:23:10
1708288711

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​