微软的 VASA-1 可以用一张照片和一个音轨来深度伪造一个人

放大 / Microsoft 的“VASA-1：实时生成的逼真音频驱动的说话面孔”的示例图像。

周二，微软亚洲研究院揭牌瓦萨-1，一种人工智能模型，可以根据单张照片和现有音轨创建一个人说话或唱歌的同步动画视频。未来，它可以为本地渲染的虚拟化身提供动力，不需要视频源，或者允许任何拥有类似工具的人拍摄网上找到的人的照片，并使他们看起来在说任何他们想说的话。

“它为与模仿人类对话行为的栩栩如生的化身进行实时互动铺平了道路，”摘要中写道随附的研究论文 titled, “VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time.” It’s the work of Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong, and Baining Guo.

VASA 框架（“Visual Affective Skills Animator”的缩写）使用机器学习来分析静态图像和语音音频剪辑。然后，它能够生成具有精确面部表情、头部运动以及与音频口型同步的逼真视频。它不会克隆或模拟声音（像其他微软研究一样），而是依赖于现有的音频输入，可以为特定目的专门录制或说出声音。

人工智能研究为个人或角色的单张照片制作动画的努力至少可以追溯到一些年但最近，研究人员一直致力于将生成的视频自动同步到音轨。二月份，一个名为 EMO：生动的表情肖像来自阿里巴巴智能计算研究院研究小组的研究人员提出了与 VASA-1 类似的方法，可以自动将动画照片同步到提供的音轨（他们称之为“Audio2Video”）。

接受 YouTube 剪辑训练

微软研究人员对 VASA-1 进行了培训 VoxCeleb2 数据集由牛津大学的三名研究人员于 2018 年创建。根据 VoxCeleb2 网站的说法，该数据集包含“6,112 位名人的超过 100 万条话语”，是从上传到 YouTube 的视频中提取的。据报道，VASA-1 可以以每秒高达 40 帧的速度生成 512×512 像素分辨率的视频，并且延迟最小，这意味着它有可能用于视频会议等实时应用。

为了展示该模型，微软创建了一个 VASA-1 研究页面，其中包含许多示例视频该工具正在运行，包括人们与预先录制的音轨同步唱歌和说话。它们展示了如何控制模型来表达不同的情绪或改变其目光。这些例子还包括一些更富有想象力的世代，例如《蒙娜丽莎》对着安妮·海瑟薇表演的音轨说唱。《狗仔队》歌曲是柯南·奥布莱恩。

研究人员表示，出于隐私原因，其页面上的每张示例照片都是由人工智能生成的 StyleGAN2 或 DALL-E 3（《蒙娜丽莎》除外）。但很明显，该技术也同样适用于真人的照片，尽管如果一个人看起来与训练数据集中的名人相似，它的效果可能会更好。尽管如此，研究人员表示，深度伪造真实的人类并不是他们的意图。

“我们正在探索虚拟互动角色的视觉情感技能生成 [sic]，不冒充现实世界中的任何人。这只是一个研究演示，没有产品或 API 发布计划，”网站上写道。

虽然微软研究人员宣传了潜在的积极应用，例如增强教育公平、提高可及性和提供治疗陪伴，但该技术也很容易被滥用。例如，它可以允许人们伪造视频聊天，让真人看起来说出他们从未真正说过的话（特别是与克隆的语音轨道配对时），或者允许来自单个社交媒体照片的骚扰。

目前，生成的视频在某些方面看起来仍然不完美，但对于某些人来说，如果他们不知道期待人工智能生成的动画，那么它可能相当有说服力。研究人员表示，他们意识到了这一点，这就是为什么他们没有公开发布驱动该模型的代码。

研究人员写道：“我们反对任何为真人制造误导性或有害内容的行为，并且有兴趣应用我们的技术来推进伪造检测。” “目前，这种方法生成的视频仍然包含可识别的伪影，数值分析表明，距离真实视频的真实性仍有差距。”

VASA-1只是一个研究演示，但微软并不是唯一一家开发类似技术的组织。如果生成式人工智能的近期历史有任何指导意义的话，那么类似的技术开源并免费提供可能只是时间问题，而且随着时间的推移，它们的真实性很可能会继续提高。

1713533861
2024-04-19 13:07:06
#微软的 #VASA1 #可以用一张照片和一个音轨来深度伪造一个人

Tags: VASA1, 可以用一张照片和一个音轨来深度伪造一个人, 微软的

微软的 VASA-1 可以用一张照片和一个音轨来深度伪造一个人

接受 YouTube 剪辑训练

Related

相关新闻

劳拉·英格拉汉姆 (Laura Ingraham) 对 > 提到特朗普的绰号感到愤怒

澳大利亚房地产大亨和亿万富翁朗·沃克的公共追悼会

凯利·吉迪什饰演的侦探阿曼达·罗林斯会回归《法律与秩序：SVU》吗？

消费者发现塑料、金属后，圣安东尼奥公司召回生猪肉香肠

托弗里和莫纳汉畅谈他们的未来

绘制树木基因组图谱如何帮助种植森林抵御气候变化

埃里克·亚当斯面临压力，要求透露校园抗议活动中“外部煽动者”的细节埃里克·亚当斯

菲律宾关闭学校，孩子们在过热的贫民窟里学习

被控恐怖相关罪行的悉尼青少年保释被拒绝

2024 年母亲节礼物指南：最佳面部防晒霜

微软表示正在调查最新 Windows 11 更新中的 VPN 问题：所有详细信息

丹妮·米洛 (Dannii Minogue) 在她的新女性约会节目《我亲吻了一个女孩》(I Kissed A Girl) 之前透露自己“认为自己是酷儿”，并就自己的职业生涯做出了重大宣布

Leave a Reply Cancel reply

近期新闻

劳拉·英格拉汉姆 (Laura Ingraham) 对 > 提到特朗普的绰号感到愤怒

澳大利亚房地产大亨和亿万富翁朗·沃克的公共追悼会

凯利·吉迪什饰演的侦探阿曼达·罗林斯会回归《法律与秩序：SVU》吗？

消费者发现塑料、金属后，圣安东尼奥公司召回生猪肉香肠

托弗里和莫纳汉畅谈他们的未来

绘制树木基因组图谱如何帮助种植森林抵御气候变化

编辑精选

信息

More Interesting News

劳拉·英格拉汉姆 (Laura Ingraham) 对 > 提到特朗普的绰号感到愤怒

澳大利亚房地产大亨和亿万富翁朗·沃克的公共追悼会

微软的 VASA-1 可以用一张照片和一个音轨来深度伪造一个人

接受 YouTube 剪辑训练

Share this:

Related

相关新闻

Leave a Reply Cancel reply

近期新闻​

编辑精选​

Tags

信息

More Interesting News

近期新闻

编辑精选