微软的 VASA-1 可以用一张照片和一个音轨来深度伪造一个人

放大 / Microsoft 的“VASA-1:实时生成的逼真音频驱动的说话面孔”的示例图像。

周二,微软亚洲研究院揭牌 瓦萨-1,一种人工智能模型,可以根据单张照片和现有音轨创建一个人说话或唱歌的同步动画视频。 未来,它可以为本地渲染的虚拟化身提供动力,不需要视频源,或者允许任何拥有类似工具的人拍摄网上找到的人的照片,并使他们看起来在说任何他们想说的话。

“它为与模仿人类对话行为的栩栩如生的化身进行实时互动铺平了道路,”摘要中写道 随附的研究论文 titled, “VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time.” It’s the work of Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong, and Baining Guo.

VASA 框架(“Visual Affective Skills Animator”的缩写)使用机器学习来分析静态图像和语音音频剪辑。 然后,它能够生成具有精确面部表情、头部运动以及与音频口型同步的逼真视频。 它不会克隆或模拟声音(像其他微软研究一样),而是依赖于现有的音频输入,可以为特定目的专门录制或说出声音。

广告

人工智能研究为个人或角色的单张照片制作动画的努力至少可以追溯到 一些年但最近,研究人员一直致力于将生成的视频自动同步到音轨。 二月份,一个名为 EMO:生动的表情肖像 来自阿里巴巴智能计算研究院研究小组的研究人员提出了与 VASA-1 类似的方法,可以自动将动画照片同步到提供的音轨(他们称之为“Audio2Video”)。

接受 YouTube 剪辑训练

微软研究人员对 VASA-1 进行了培训 VoxCeleb2 数据集 由牛津大学的三名研究人员于 2018 年创建。 根据 VoxCeleb2 网站的说法,该数据集包含“6,112 位名人的超过 100 万条话语”,是从上传到 YouTube 的视频中提取的。 据报道,VASA-1 可以以每秒高达 40 帧的速度生成 512×512 像素分辨率的视频,并且延迟最小,这意味着它有可能用于视频会议等实时应用。

为了展示该模型,微软创建了一个 VASA-1 研究页面,其中包含 许多示例视频 该工具正在运行,包括人们与预先录制的音轨同步唱歌和说话。 它们展示了如何控制模型来表达不同的情绪或改变其目光。 这些例子还包括一些更富有想象力的世代,例如《蒙娜丽莎》对着安妮·海瑟薇表演的音轨说唱。 《狗仔队》歌曲 是柯南·奥布莱恩。

研究人员表示,出于隐私原因,其页面上的每张示例照片都是由人工智能生成的 StyleGAN2 或 DALL-E 3(《蒙娜丽莎》除外)。 但很明显,该技术也同样适用于真人的照片,尽管如果一个人看起来与训练数据集中的名人相似,它的效果可能会更好。 尽管如此,研究人员表示,深度伪造真实的人类并不是他们的意图。

广告

“我们正在探索虚拟互动角色的视觉情感技能生成 [sic],不冒充现实世界中的任何人。 这只是一个研究演示,没有产品或 API 发布计划,”网站上写道。

虽然微软研究人员宣传了潜在的积极应用,例如增强教育公平、提高可及性和提供治疗陪伴,但该技术也很容易被滥用。 例如,它可以允许人们伪造视频聊天,让真人看起来说出他们从未真正说过的话(特别是与克隆的语音轨道配对时),或者允许来自单个社交媒体照片的骚扰。

目前,生成的视频在某些方面看起来仍然不完美,但对于某些人来说,如果他们不知道期待人工智能生成的动画,那么它可能相当有说服力。 研究人员表示,他们意识到了这一点,这就是为什么他们没有公开发布驱动该模型的代码。

研究人员写道:“我们反对任何为真人制造误导性或有害内容的行为,并且有兴趣应用我们的技术来推进伪造检测。” “目前,这种方法生成的视频仍然包含可识别的伪影,数值分析表明,距离真实视频的真实性仍有差距。”

VASA-1只是一个研究演示,但微软并不是唯一一家开发类似技术的组织。 如果生成式人工智能的近期历史有任何指导意义的话,那么类似的技术开源并免费提供可能只是时间问题,而且随着时间的推移,它们的真实性很可能会继续提高。

1713533861
2024-04-19 13:07:06
#微软的 #VASA1 #可以用一张照片和一个音轨来深度伪造一个人

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​