微软可以根据音频实时移动照片。它太好了，他宁愿不给任何人 – Živě.cz

微软研究院亚洲分院发布了 VASA-1 框架它可以从单张照片或仅绘制的图像和音轨创建一个逼真的说话角色视频。

主要创新是先进的动画功能，可传达情感和头部动作，打造自然的视频。微软没有使用任何真人进行演示，只是使用人工智能生成的不存在的面孔：

首先应该说的是，微软没有针对这个项目的商业计划，也不打算发布公开演示或任何 API。这纯粹是内部研究，由于担心被滥用，不希望免费或收费提供。

我们最近写了一篇关于阿里巴巴的AI EMO，它正在尝试做类似的事情，但没有类似的严厉意见，它可能会进入商业部署。

从微软的演示来看，虽然看起来非常逼真，但你仍然可以看出这是人工生成的视频。牙齿随着脸部以各种方式起伏，尽管它们实际上并不灵活。你不会错过双眼之间可疑的固定距离，即使脸部轻微转动，该距离也不会减小。您可以在此处嵌入的示例的倒数第二个块中看到最多的内容，绿色背景上有一张脸，移动得非常不切实际。在这里，目前AI人脸生成器使用固定眼距的事实也让微软更容易生成。您可以在以下位置找到更多视频样本，包括说唱蒙娜丽莎：项目页面。

您还可以为不切实际的面孔制作动画

然而，微软解决方案的优势在于能够直接实时生成，他们目前在文档中表示，他们在 RTX 4090 上管理 40 FPS。所以我们还没有达到在咖啡店里使用轻型笔记本电脑的阶段可以处理它，但这里对实时的强调表明有计划的部署。

就微软而言，将提供真正的用途，例如在Teams中，仅通过动画照片和语音传输就可以轻松地足以在视频聊天中传输情感，此外还可以在保持图像的同时显着节省传输带宽质量。因此，您只需通过语音通话即可加入会议，而您存储在公司网络上的照片将负责将表格转换为视频。

它肯定会在动画制作中得到应用，因为它可以以动画电影的风格制作面部动画，并确保嘴唇与语音轨道的同步。它还将有助于对不同语言版本的配音进行可能的微调。

但这里只公布样本而不公布发动机本身突显了一种新趋势，即研究人员充分意识到滥用的威胁，尽管这并没有阻止他们进一步调查，但他们指出了一个有漏洞的立法框架，尚不允许对于这样的事情。

1713454452
#微软可以根据音频实时移动照片 #它太好了他宁愿不给任何人 #Živě.cz
2024-04-18 12:46:35

Related

Tags: Živě.cz, 它太好了他宁愿不给任何人, 微软可以根据音频实时移动照片

相关新闻

送餐员 Uber Eats 要求更多报酬和尊重（布鲁塞尔）

May 1, 2024

赫拉还将看到火卫二 – Kosmonautix.cz

May 1, 2024

视频 ⟩ 播客“没有两个汤姆”有什么新内容？来看看新系列吧！

May 1, 2024

Markus Nurmi 同意吕勒奥的观点 – 在芬兰使用条款 | SHL

May 1, 2024

痴呆症安乐死| 健康网

May 1, 2024

芦屋最年轻市长第二年优先考虑政策行动

May 1, 2024

颠覆者正在退出医疗保健领域

May 1, 2024

据报道，洛杉矶达文·汉姆的“最后一根稻草”发生时

May 1, 2024

远程工作者阻止老板监视他们的 6 种方法

May 1, 2024

世界 | 从以色列撤资的呼吁面临阻力

May 1, 2024

Stride Ventures 以 1.65 亿美元完成第三期基金，投资组合展示顶级资产 | 公司新闻

May 1, 2024

传奇摇滚吉他手杜安·艾迪去世，享年 86 岁：-

May 1, 2024

Leave a Reply Cancel reply

近期新闻

送餐员 Uber Eats 要求更多报酬和尊重（布鲁塞尔）

May 1, 2024

赫拉还将看到火卫二 – Kosmonautix.cz

May 1, 2024

视频 ⟩ 播客“没有两个汤姆”有什么新内容？来看看新系列吧！

May 1, 2024

Markus Nurmi 同意吕勒奥的观点 – 在芬兰使用条款 | SHL

May 1, 2024

痴呆症安乐死| 健康网

May 1, 2024

芦屋最年轻市长第二年优先考虑政策行动

May 1, 2024

编辑精选

Web Analytics