谷歌发布 Imagen 2，视频剪辑生成器

在图像生成人工智能方面，谷歌并没有最好的记录。

今年 2 月，谷歌人工智能聊天机器人 Gemini 内置的图像生成器被发现在有关人物的提示中随机注入性别和种族多样性，导致出现种族多样化纳粹分子的图像，以及其他令人反感的错误。

谷歌撤下了该生成器，并发誓要改进它并最终重新发布它。在我们等待其回归时，该公司在其 Vertex AI 开发者平台内推出了一款增强型图像生成工具 Imagen 2，尽管该工具显然更具企业倾向。谷歌在拉斯维加斯举行的年度 Cloud Next 会议上宣布了 Imagen 2。

图片来源： 弗雷德里克·拉迪诺斯/>

Imagen 2 实际上是一个模型系列，在 2023 年 5 月的 Google I/O 大会上预览后于 12 月推出，可以根据文本提示创建和编辑图像，就像 OpenAI 的 DALL-E 和 Midjourney 一样。对于企业类型来说，Imagen 2 可以以多种语言呈现文本、标志和徽标，并可选择将这些元素覆盖在现有图像中，例如名片、服装和产品上。

首次推出预览版后，Vertex AI 现已普遍提供使用 Imagen 2 进行图像编辑以及两项新功能：修复和修复。修复和修复，其他流行的图像生成器（例如 DALL-E）已经提供了一段时间的功能，可用于删除图像中不需要的部分，添加新的组件并扩展图像的边界以创建更宽的视野。

但 Imagen 2 升级的真正核心是谷歌所说的“文本到实时图像”。

Imagen 2 现在可以根据文本提示创建四秒短视频，类似于 Runway、Pika 和 Ireverent Labs 等 AI 驱动的剪辑生成工具。与 Imagen 2 的企业重点一样，Google 将实时图像作为营销人员和创意人员的工具，例如用于展示自然、食物和动物的广告的 GIF 生成器 – Imagen 2 对此主题进行了微调。

谷歌表示，实时图像可以捕捉“一系列相机角度和动作”，同时“支持整个序列的一致性。” 但目前它们的分辨率较低：360 像素 x 640 像素。谷歌承诺未来将对此进行改进。

为了减轻（或至少试图减轻）对深度伪造的可能性的担忧，谷歌表示 Imagen 2 将采用 SynthID（一种由 Google DeepMind 开发的方法），将不可见的加密水印应用于实时图像。当然，检测这些水印（谷歌声称这些水印可以进行编辑，包括压缩、过滤器和色调调整）需要谷歌提供的工具，而第三方无法使用该工具。

毫无疑问，为了避免另一场生成媒体争议，谷歌强调实时图像生成将被“安全过滤”。一位发言人通过电子邮件告诉 >：“ Vertex AI 中的 Imagen 2 模型没有遇到与 Gemini 应用程序相同的问题。我们将继续进行广泛的测试并与客户互动。”

图片来源： 弗雷德里克·拉迪诺斯/>

但慷慨地假设谷歌的水印技术、偏见缓解和过滤器像它声称的那样有效，甚至是实时图像 竞争的 视频生成工具已经存在了吗？

并不真地。

Runway 可以生成分辨率更高的 18 秒剪辑。 Stability AI 的视频剪辑工具 Stable Video Diffusion 提供了更大的可定制性（在帧速率方面）。 OpenAI 的 Sora——当然，它还没有商业化——似乎准备以其所能达到的照片级真实感来击败竞争对手。

那么实时图像的真正技术优势是什么？我不太确定。而且我不认为我太严厉了。

毕竟，Google 是 Imagen Video 和 Phenaki 等真正令人印象深刻的视频生成技术的幕后黑手。 Phenaki 是谷歌在文本转视频方面最有趣的实验之一，它将长而详细的提示变成了两分钟多的“电影”——但需要注意的是，这些剪辑的分辨率低、帧速率低，而且只有一定程度的连贯性。

最近有报道称，生成式人工智能革命让谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 措手不及，该公司仍在努力跟上竞争对手的步伐，像实时图像这样的产品感觉像是失败者也就不足为奇了。但它仍然令人失望。我不禁感觉到，谷歌的臭鼬工厂里潜藏着——或者曾经——一款更令人印象深刻的产品。

像 Imagen 这样的模型是根据通常来自公共网站和网络数据集的大量示例进行训练的。许多生成式人工智能供应商将训练数据视为一种竞争优势，因此将其以及与之相关的信息放在心上。但训练数据细节也是知识产权相关诉讼的潜在来源，这是不愿透露太多信息的另一个因素。

正如我在发布有关生成式 AI 模型的公告时所做的那样，我询问了用于训练更新后的 Imagen 2 的数据，以及那些作品可能已被模型训练过程淹没的创作者是否可以选择退出在未来的某个时刻。

谷歌只告诉我，它的模型“主要”是根据公共网络数据进行训练的，这些数据来自“博客文章、媒体记录和公共对话论坛”。哪些博客、成绩单和论坛？这是任何人的猜测。

一位发言人指出，谷歌的网络出版商控制措施允许网站管理员阻止该公司从其网站上抓取数据，包括照片和艺术品。但谷歌不会承诺发布退出工具，或者补偿创作者（不知情的）贡献——这是许多竞争对手，包括 OpenAI、Stability AI 和 Adobe 已经采取的做法。

另一点值得一提：文本到实时图像不包括在谷歌的生成式人工智能赔偿政策范围内，该政策保护 Vertex AI 客户免受与谷歌使用训练数据和生成式人工智能模型输出相关的版权索赔。这是因为文本到实时图像在技术上处于预览状态；该政策仅涵盖一般可用性（GA）的生成式人工智能产品。

反流，或者生成模型吐出其所训练的示例（例如图像）的镜像副本，理所当然地是企业客户所关心的问题。研究两者非正式的和学术的已经表明，第一代 Imagen 也不能幸免，当以特定方式提示时，它会吐出可识别的人物照片、艺术家的受版权保护的作品等。

除非出现争议、技术问题或其他一些不可预见的重大挫折，文本到实时图像将在未来某个时间进入 GA。但对于目前存在的实时图像，谷歌基本上是在说：使用风险自负。

1712735111
#谷歌发布 #Imagen #2视频剪辑生成器
2024-04-09 12:00:16

Tags: 2视频剪辑生成器, Imagen, 云下一步, 人工智能, 图2, 生成式人工智能, 谷歌, 谷歌云, 谷歌云未来 2024 年, 谷歌发布

谷歌发布 Imagen 2，视频剪辑生成器

Related

相关新闻

英格兰队获胜后，斯洛伐克主教练德克兰·赖斯被推搡，他怒不可遏

科学家观察到淀粉样蛋白水平高的阿尔茨海默病患者的大脑萎缩速度更快

6 名受害者，包括一名儿童

他们喝了很多 Kool-Aid – 文件

查看自 2024 年 7 月 5 日起需缴纳 4,000 印尼盾费用的 BCA 交易类型

WhatsApp 群组社区活动功能现已推出 • Jagat Gadget

边境路边遭到 Matthijs van Nieuwkerk 的批评

美国宇航局否认机组人员被困在国际空间站的假设，并下令对星际客机进行更多测试

西班牙 – 格鲁吉亚 | 观看直播西班牙 – 格鲁吉亚 | 观看 2024 年欧洲杯

参观曾经帮助飞机保持航向的孤独建筑

FDA 称新研究证明巴氏灭菌工艺可杀死牛奶中的禽流感病毒

比佛利山庄罗迪欧大道古董车展

Leave a Reply Cancel reply

近期新闻

英格兰队获胜后，斯洛伐克主教练德克兰·赖斯被推搡，他怒不可遏

科学家观察到淀粉样蛋白水平高的阿尔茨海默病患者的大脑萎缩速度更快

6 名受害者，包括一名儿童

他们喝了很多 Kool-Aid – 文件

查看自 2024 年 7 月 5 日起需缴纳 4,000 印尼盾费用的 BCA 交易类型

WhatsApp 群组社区活动功能现已推出 • Jagat Gadget

编辑精选

信息

More Interesting News

英格兰队获胜后，斯洛伐克主教练德克兰·赖斯被推搡，他怒不可遏

科学家观察到淀粉样蛋白水平高的阿尔茨海默病患者的大脑萎缩速度更快

谷歌发布 Imagen 2，视频剪辑生成器

Share this:

Related

相关新闻

Leave a Reply Cancel reply

近期新闻​

编辑精选​

Tags

信息

More Interesting News

近期新闻

编辑精选