Runway 的最新 AI 视频生成器让巨型棉花糖怪物栩栩如生

放大 / 使用提示“一个巨大的人形生物,由蓬松的蓝色棉花糖制成,踩着地面,向天空咆哮,身后是湛蓝的天空”生成的 Runway Gen-3 Alpha 视频的屏幕截图。

周日,Runway 宣布了一种新的 AI 视频合成模型,名为 第三代阿尔法 该软件仍在开发中,但它似乎可以制作出与 OpenAI 的 Sora,于今年早些时候首次亮相(目前也尚未发布)。它可以根据文本提示生成新颖的高清视频,这些提示包括现实中的人类以及踩踏乡村的超现实怪物。

Gen-3 Alpha 不会生成音频来配合视频片段,时间连贯的生成(保持角色随时间保持一致的生成)很可能依赖于 类似的高质量培训材料但 Runway 在过去一年中在视觉保真度方面的进步却不容忽视。

人工智能视频热度上升

过去几周,人工智能研究界的人工智能视频合成工作非常忙碌,其中包括推出中国模型 克林,由总部位于北京的快手科技公司(有时称为“Kwai”)开发。Kling 可以以每秒 30 帧的速度生成两分钟的 1080p 高清视频,速度高达 细节和连贯性 据报道,这与 Sora 相匹配。

Gen-3 Alpha 提示:“日本某城市中,高速行驶的火车窗户上,隐约可见一位女性的影子。”

Kling 出道后不久,社交媒体上就开始有人创建 超现实的人工智能视频 使用 Luma AI 的 亮度梦幻机。这些视频很新奇,也很怪异,但一般来说 缺乏连贯性;我们测试了 Dream Machine,但对所看​​到的一切都没有留下深刻的印象。

与此同时,最早将文本转视频的先驱之一、总部位于纽约的 Runway(成立于 2018 年)最近发现自己成了表情包的笑柄,这些表情包表明,与较新的视频合成模型相比,其 Gen-2 技术已不再受欢迎。这可能促使 Gen-3 Alpha 的发布。

Gen-3 Alpha 提示:“一名宇航员正在里约热内卢的一条小巷里奔跑。”

对于视频合成模型来说,生成逼真的人类一直都是一个难题,因此 Runway 特别展示了 Gen-3 Alpha 的能力,即通过一系列动作、手势和情绪来创建其开发人员所称的“富有表现力”的人类角色。然而,该公司的 提供的例子 并没有特别富有表现力——大多数人只是慢慢地盯着看并眨眼——但它们看起来确实很逼真。

提供的人类示例包括火车上的女人、在街上奔跑的宇航员、脸部被电视机光线照亮的男人、驾驶汽车的女人和奔跑的女人等生成的视频。

Gen-3 Alpha 提示:“特写镜头:一位年轻女子开车,若有所思,透过雨中的车窗可以看到模糊的绿色森林。”

生成的演示视频还包括更多超现实的视频合成示例,包括在破败城市中行走的巨型生物、在森林中行走的由岩石制成的人以及下面看到的巨型棉花糖怪物,这可能是整个页面上最好的视频。

Gen-3 Alpha 提示:“一个巨大的人形生物,由蓬松的蓝色棉花糖制成,踩踏地面,向天空咆哮,身后是湛蓝的天空。”

Gen-3 将为各种 Runway AI 编辑工具(该公司最引以为豪的产品之一)提供支持,包括 多动刷高级相机控制, 和 导演模式.它可以根据文本或图像提示创建视频。

Runway 表示,Gen-3 Alpha 是一系列模型中的第一个,这些模型是在专为大规模多模式训练而设计的新基础设施上训练的,朝着所谓的“通用世界模型”,它们是假设的人工智能系统,可以构建环境的内部表征,并使用它们来模拟这些环境中的未来事件。

2024-06-18 21:41:56
1718807854

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​