谷歌发布 Imagen 2,视频剪辑生成器

在图像生成人工智能方面,谷歌并没有最好的记录。

今年 2 月,谷歌人工智能聊天机器人 Gemini 内置的图像生成器被发现在有关人物的提示中随机注入性别和种族多样性,导致出现种族多样化纳粹分子的图像,以及其他令人反感的错误。

谷歌撤下了该生成器,并发誓要改进它并最终重新发布它。 在我们等待其回归时,该公司在其 Vertex AI 开发者平台内推出了一款增强型图像生成工具 Imagen 2,尽管该工具显然更具企业倾向。 谷歌在拉斯维加斯举行的年度 Cloud Next 会议上宣布了 Imagen 2。

图片来源: 弗雷德里克·拉迪诺斯/>

Imagen 2 实际上是一个模型系列,在 2023 年 5 月的 Google I/O 大会上预览后于 12 月推出,可以根据文本提示创建和编辑图像,就像 OpenAI 的 DALL-E 和 Midjourney 一样。 对于企业类型来说,Imagen 2 可以以多种语言呈现文本、标志和徽标,并可选择将这些元素覆盖在现有图像中,例如名片、服装和产品上。

首次推出预览版后,Vertex AI 现已普遍提供使用 Imagen 2 进行图像编辑以及两项新功能:修复和修复。 修复和修复,其他流行的图像生成器(例如 DALL-E)已经提供了一段时间的功能,可用于删除 图像中不需要的部分,添加新的组件并扩展图像的边界以创建更宽的视野。

但 Imagen 2 升级的真正核心是谷歌所说的“文本到实时图像”。

Imagen 2 现在可以根据文本提示创建四秒短视频,类似于 Runway、Pika 和 Ireverent Labs 等 AI 驱动的剪辑生成工具。 与 Imagen 2 的企业重点一样,Google 将实时图像作为营销人员和创意人员的工具,例如用于展示自然、食物和动物的广告的 GIF 生成器 – Imagen 2 对此主题进行了微调。

谷歌表示,实时图像可以捕捉“一系列相机角度和动作”,同时“支持整个序列的一致性。” 但目前它们的分辨率较低:360 像素 x 640 像素。 谷歌承诺未来将对此进行改进。

为了减轻(或至少试图减轻)对深度伪造的可能性的担忧,谷歌表示 Imagen 2 将采用 SynthID(一种由 Google DeepMind 开发的方法),将不可见的加密水印应用于实时图像。 当然,检测这些水印(谷歌声称这些水印可以进行编辑,包括压缩、过滤器和色调调整)需要谷歌提供的工具,而第三方无法使用该工具。

毫无疑问,为了避免另一场生成媒体争议,谷歌强调实时图像生成将被“安全过滤”。 一位发言人通过电子邮件告诉 >:“ Vertex AI 中的 Imagen 2 模型没有遇到与 Gemini 应用程序相同的问题。 我们将继续进行广泛的测试并与客户互动。”

图片来源: 弗雷德里克·拉迪诺斯/>

但慷慨地假设谷歌的水印技术、偏见缓解和过滤器像它声称的那样有效,甚至是实时图像 竞争的 视频生成工具已经存在了吗?

并不真地。

Runway 可以生成分辨率更高的 18 秒剪辑。 Stability AI 的视频剪辑工具 Stable Video Diffusion 提供了更大的可定制性(在帧速率方面)。 OpenAI 的 Sora——当然,它还没有商业化——似乎准备以其所能达到的照片级真实感来击败竞争对手。

那么实时图像的真正技术优势是什么? 我不太确定。 而且我不认为我太严厉了。

毕竟,Google 是 Imagen Video 和 Phenaki 等真正令人印象深刻的视频生成技术的幕后黑手。 Phenaki 是谷歌在文本转视频方面最有趣的实验之一,它将长而详细的提示变成了两分钟多的“电影”——但需要注意的是,这些剪辑的分辨率低、帧速率低,而且只有一定程度的连贯性。

最近有报道称,生成式人工智能革命让谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 措手不及, 该公司仍在努力跟上竞争对手的步伐,像实时图像这样的产品感觉像是失败者也就不足为奇了。 但它仍然令人失望。 我不禁感觉到,谷歌的臭鼬工厂里潜藏着——或者曾经——一款更令人印象深刻的产品。

像 Imagen 这样的模型是根据通常来自公共网站和网络数据集的大量示例进行训练的。 许多生成式人工智能供应商将训练数据视为一种竞争优势,因此将其以及与之相关的信息放在心上。 但训练数据细节也是知识产权相关诉讼的潜在来源,这是不愿透露太多信息的另一个因素。

正如我在发布有关生成式 AI 模型的公告时所做的那样,我询问了用于训练更新后的 Imagen 2 的数据,以及那些作品可能已被模型训练过程淹没的创作者是否可以选择退出在未来的某个时刻。

谷歌只告诉我,它的模型“主要”是根据公共网络数据进行训练的,这些数据来自“博客文章、媒体记录和公共对话论坛”。 哪些博客、成绩单和论坛? 这是任何人的猜测。

一位发言人指出,谷歌的网络出版商控制措施允许网站管理员阻止该公司从其网站上抓取数据,包括照片和艺术品。 但谷歌不会承诺发布退出工具,或者补偿创作者(不知情的)贡献——这是许多竞争对手,包括 OpenAI、Stability AI 和 Adob​​e 已经采取的做法。

另一点值得一提:文本到实时图像不包括在谷歌的生成式人工智能赔偿政策范围内,该政策保护 Vertex AI 客户免受与谷歌使用训练数据和生成式人工智能模型输出相关的版权索赔。 这是因为文本到实时图像在技术上处于预览状态; 该政策仅涵盖一般可用性(GA)的生成式人工智能产品。

反流,或者生成模型吐出其所训练的示例(例如图像)的镜像副本,理所当然地是企业客户所关心的问题。 研究两者 非正式的学术的 已经表明,第一代 Imagen 也不能幸免,当以特定方式提示时,它会吐出可识别的人物照片、艺术家的受版权保护的作品等。

除非出现争议、技术问题或其他一些不可预见的重大挫折,文本到实时图像将在未来某个时间进入 GA。 但对于目前存在的实时图像,谷歌基本上是在说:使用风险自负。

1712735111
#谷歌发布 #Imagen #2视频剪辑生成器
2024-04-09 12:00:16

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​