谷歌 DeepMind 推出全新 AI 模型 V2A,可为视频生成配乐和对话 | 科技新闻

  • 消息
  • 技术
  • 人工智能
  • Google DeepMind 推出 V2A,一种可以为视频生成配乐和对话的新型 AI 模型
  • 谷歌人工智能研究实验室 Google DeepMind 最近推出了一种可以从视频生成音频的新模型 V2A。

    Google DeepMind V2A | 视频转音频 AI | DeepmindGoogle 近期没有计划向公众推出 V2A。(图片来源:Google)

    Sora、Dream Machine、Veo 和 Kling 等视频生成模型正在快速发展,允许用户根据文本提示生成视频。但是,这些系统中的大多数仅限于无声视频。Google DeepMind 似乎意识到了这个问题,目前正在开发一种新的大型语言模型,可以为视频生成配乐和对话。

    该科技巨头的人工智能研究实验室在一篇博客文章中公布了 V2A(视频转音频),这是一种正在研发的新型人工智能模型,它“将视频像素与自然语言文本提示相结合,为屏幕上的动作生成丰富的音景”。

    V2A 与 Veo(该公司在最近结束的 Google I/O 2024 上推出了一种文本转视频模型)兼容,可用于添加戏剧性音乐、逼真的音效和与视频基调相匹配的对话。谷歌表示,新的大型语言模型也适用于“传统镜头”,如无声电影和档案材料。

    YouTube 海报

    新的 V2A 模型可以为任何视频生成“无限数量的音轨”,并具有可选的“正提示”和“负提示”,可用于根据您的喜好调整输出。它还使用 SynthID 技术为生成的音频添加水印。

    DeepMind 的 V2A 技术将声音描述作为输入,并使用基于声音、对话记录和视频组合训练的扩散模型。由于该模型未基于大量视频进行训练,因此输出有时会失真。谷歌还表示,为了防止近期滥用,它不会向公众发布 V2A。

    © IE 在线媒体服务私人有限公司

    首次上传于:2024 年 6 月 18 日 17:10 IST

    1718711363
    2024-06-18 11:40:35
    #谷歌 #DeepMind #推出全新 #模型 #V2A可为视频生成配乐和对话 #科技新闻

    Leave a Reply

    Your email address will not be published. Required fields are marked *

    近期新闻​

    编辑精选​