微软可以根据音频实时移动照片。 它太好了,他宁愿不给任何人 – Živě.cz

微软研究院亚洲分院 发布了 VASA-1 框架它可以从单张照片或仅绘制的图像和音轨创建一个逼真的说话角色视频。

主要创新是先进的动画功能,可传达情感和头部动作,打造自然的视频。 微软没有使用任何真人进行演示,只是使用人工智能生成的不存在的面孔:

首先应该说的是,微软没有针对这个项目的商业计划,也不打算发布公开演示或任何 API。 这纯粹是内部研究,由于担心被滥用,不希望免费或收费提供。

我们最近写了一篇关于阿里巴巴的AI EMO,它正在尝试做类似的事情,但没有类似的严厉意见,它可能会进入商业部署。

从微软的演示来看,虽然看起来非常逼真,但你仍然可以看出这是人工生成的视频。 牙齿随着脸部以各种方式起伏,尽管它们实际上并不灵活。 你不会错过双眼之间可疑的固定距离,即使脸部轻微转动,该距离也不会减小。 您可以在此处嵌入的示例的倒数第二个块中看到最多的内容,绿色背景上有一张脸,移动得非常不切实际。 在这里,目前AI人脸生成器使用固定眼距的事实也让微软更容易生成。 您可以在以下位置找到更多视频样本,包括说唱蒙娜丽莎: 项目页面

图片.png
您还可以为不切实际的面孔制作动画

然而,微软解决方案的优势在于能够直接实时生成,他们目前在文档中表示,他们在 RTX 4090 上管理 40 FPS。所以我们还没有达到在咖啡店里使用轻型笔记本电脑的阶段可以处理它,但这里对实时的强调表明有计划的部署。

就微软而言,将提供真正的用途,例如在Teams中,仅通过动画照片和语音传输就可以轻松地足以在视频聊天中传输情感,此外还可以在保持图像的同时显着节省传输带宽质量。 因此,您只需通过语音通话即可加入会议,而您存储在公司网络上的照片将负责将表格转换为视频。

它肯定会在动画制作中得到应用,因​​为它可以以动画电影的风格制作面部动画,并确保嘴唇与语音轨道的同步。 它还将有助于对不同语言版本的配音进行可能的微调。

但这里只公布样本而不公布发动机本身突显了一种新趋势,即研究人员充分意识到滥用的威胁,尽管这并没有阻止他们进一步调查,但他们指出了一个有漏洞的立法框架,尚不允许对于这样的事情。

1713454452
#微软可以根据音频实时移动照片 #它太好了他宁愿不给任何人 #Živě.cz
2024-04-18 12:46:35

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​