微软推出人工智能模型,让肖像照片说话和唱歌 – 计算机 – 新闻

微软发布了一项关于其人工智能模型 VASA-1 的研究。 该模型允许将肖像照片链接到音频文件。 然后,VASA-1 生成视频,其中的照片可以“以逼真的方式说话和唱歌”。

AI模型主要是为了设计虚拟角色。 “VASA-1 能够产生与音频完美同步的嘴唇运动。此外,它还可以捕捉各种微妙的面部表情和自然的头部运动,有助于感知真实性和活力。” 微软说

该公司分享了几段展示这一点的视频,其中包括一段饶舌的《蒙娜丽莎》。 模型的用户可以自行调整,例如头部移动或注视方向。 在离线模式下,VASA-1 以 45 fps 生成 512×512 像素的视频,在线版本中支持高达 40 fps。 微软强调,它没有计划将 VASA-1 商业化,因为担心人工智能模型被滥用来制造 Deepfakes。

布朗:微软

1713541410
#微软推出人工智能模型让肖像照片说话和唱歌 #计算机 #新闻
2024-04-19 13:46:59

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​