微软的人工智能应用程序 VASA-1 让图片中的面孔说话和唱歌:它是如何工作的? | 科技新闻

不久前,一些应用程序可以通过类似 GIF 的动作让照片变得栩栩如生。 现在,我们有了一个人工智能系统,可以让照片跳舞唱歌。 微软亚洲研究院的人工智能研究人员团队创建了一款人工智能应用程序,可以将人物的静态图像和音轨转换为动画。 这不仅仅是动画/据报道,输出准确地显示了图像中的人物对着音轨说话或唱歌,以及恰当的面部表情。

最新的应用程序 Vasa 是一个框架,用于从单个静态图像和语音音频剪辑中生成具有吸引人的视觉情感技能 (VAS) 的虚拟角色的逼真说话面孔。 研究人员写道:“我们的首个模型 VASA-1 不仅能够产生与音频完美同步的嘴唇运动,还能捕捉大量面部细微差别和自然头部运动,有助于感知真实性和活力。”在描述该框架的论文中。

“我们的方法不仅提供具有逼真的面部和头部动态的高视频质量,而且还支持高达 40 FPS 的在线生成 512×512 视频,并且启动延迟可以忽略不计。 它为与模仿人类对话行为的逼真化身进行实时互动铺平了道路,”研究人员写道。

什么是 VASA-1?

微软的研究人员声称,他们的新方法不仅能够产生唇音同步,还可以创建大量富有表现力的面部细微差别和自然的头部运动。 “它可以处理任意长度的音频并稳定输出无缝的人脸视频。”

节日优惠

VASA-1 的研究人员开始了一项雄心勃勃的任务,即让静态图像栩栩如生,让它们与任何音轨完美同步地说话、唱歌和表达情感。 VASA-1 是他们努力的成果,人工​​智能系统将静止的视觉效果(无论是照片、图画还是绘画)转换为同步动画。 在控制方面,研究人员声称他们的扩散模型可以接受可选信号作为主眼注视方向、头部距离、情绪偏移等条件。

根据该研究论文,该团队通过大量视频剪辑展示了 VASA-1 系统的功能。 其中一张卡通版的《蒙娜丽莎》栩栩如生,并唱出一首说唱歌曲。 在这个例子中,蒙娜丽莎的表情和嘴唇动作与歌词完美契合。 与此同时,另一个例子是一张女人的照片变成了唱歌表演。 另一个例子是一个正在演讲的男人的肖像,人们可以注意到他的表情自然地变化以强调所说的话。

VASA-1 是如何创建的?

根据该研究论文,VASA-1 的突破是通过广泛的训练过程实现的。 这涉及到人工智能系统暴露于数千张描绘各种面部表情的图像。 据报道,这个庞大的数据集使系统能够学习并准确地重现人类情感和语音模式的细微差别。 VASA-1 的当前迭代可生成 512X512 像素的高分辨率视觉效果,帧速率为 45fps,使其显得流畅。 据报道,这些逼真动画的渲染平均需要两分钟,这可以通过使用桌面级 Nvidia RTX 4090 GPU 的计算能力来实现。

该研究论文没有明确提及发布日期,但指出 VASA-1 让他们更接近人工智能化身可以进行自然交互的未来,这表明它目前只是一个研究原型。 尽管 VASA-1 的潜在用例范围很广,但研究人员也承认它有可能被滥用。 据报道,作为一项主动措施,他们决定禁止公众访问 VASA-1。 他们承认需要对此类先进技术进行负责任的管理,以减轻任何意外后果或利用。

尽管这些动画无缝地结合了视觉和音频并赋予了逼真的魅力,但研究人员表示,经过仔细检查,人们可能会注意到人工智能生成内容的一些微妙缺陷和典型迹象。 尽管如此,分享的示例展示了一直致力于 VASA-1 的团队的卓越技术。

1713599921
2024-04-20 07:15:32
#微软的人工智能应用程序 #VASA1 #让图片中的面孔说话和唱歌它是如何工作的 #科技新闻

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​