微软的人工智能工具可以将照片变成人们说话和唱歌的逼真视频

微软亚洲研究院有 揭幕 一个新的实验 人工智能工具 称为 VASA-1,它可以拍摄一个人的静态图像(或一个人的图画)和现有的音频文件,实时创建一个栩栩如生的说话面孔。 它能够为现有的静态图像生成面部表情和头部动作,以及匹配语音或歌曲的适当的嘴唇动作。 研究人员在项目页面上上传了大量示例,结果看起来足够好,可以欺骗人们认为它们是真实的。

研究人员相信他们的技术有很多好处,尽管它有可能被滥用。 他们表示,它可以用来增强教育公平,并改善那些有沟通障碍的人的可及性,也许可以让他们获得一个可以为他们沟通的化身。 他们说,它还可以为有需要的人提供陪伴和治疗支持,暗示 VASA-1 可以用于提供与人们可以交谈的人工智能角色的程序。

根据 随公告一起发布的 VASA-1 接受了 VoxCeleb2 数据集的训练,该数据集包含从 YouTube 视频中提取的“6,112 名名人的超过 100 万条话语”。 尽管该工具是在真实面孔上进行训练的,但它也适用于《蒙娜丽莎》等艺术照片,研究人员将其与安妮·海瑟薇病毒式传播的李尔·韦恩的作品的音频文件有趣地结合在一起 狗仔队。 它是如此令人愉快,值得一看,即使你怀疑这样的技术能做什么。

1713597207
2024-04-20 07:00:52
#微软的人工智能工具可以将照片变成人们说话和唱歌的逼真视频

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​