微软的人工智能工具可以将照片变成人们说话和唱歌的逼真视频

微软亚洲研究院有揭幕一个新的实验人工智能工具称为 VASA-1，它可以拍摄一个人的静态图像（或一个人的图画）和现有的音频文件，实时创建一个栩栩如生的说话面孔。它能够为现有的静态图像生成面部表情和头部动作，以及匹配语音或歌曲的适当的嘴唇动作。研究人员在项目页面上上传了大量示例，结果看起来足够好，可以欺骗人们认为它们是真实的。

研究人员相信他们的技术有很多好处，尽管它有可能被滥用。他们表示，它可以用来增强教育公平，并改善那些有沟通障碍的人的可及性，也许可以让他们获得一个可以为他们沟通的化身。他们说，它还可以为有需要的人提供陪伴和治疗支持，暗示 VASA-1 可以用于提供与人们可以交谈的人工智能角色的程序。

根据纸随公告一起发布的 VASA-1 接受了 VoxCeleb2 数据集的训练，该数据集包含从 YouTube 视频中提取的“6,112 名名人的超过 100 万条话语”。尽管该工具是在真实面孔上进行训练的，但它也适用于《蒙娜丽莎》等艺术照片，研究人员将其与安妮·海瑟薇病毒式传播的李尔·韦恩的作品的音频文件有趣地结合在一起 狗仔队。它是如此令人愉快，值得一看，即使你怀疑这样的技术能做什么。

1713597207
2024-04-20 07:00:52
#微软的人工智能工具可以将照片变成人们说话和唱歌的逼真视频