受控扩散模型可以改变图像中的材料属性 | MIT 新闻

麻省理工学院计算机科学与人工智能实验室 (CSAIL) 和谷歌研究中心的研究人员可能刚刚进行了数字魔法——以扩散模型的形式，可以改变图像中物体的材质属性。

配音炼金术士该系统允许用户改变真实图片和人工智能生成的图片的四个属性：粗糙度、金属度、反照率（物体的初始基色）和透明度。作为图像到图像的扩散模型，可以输入任何照片，然后在 -1 到 1 的连续范围内调整每个属性以创建新的视觉效果。这些照片编辑功能可能会扩展到改进视频游戏中的模型、扩展人工智能在视觉效果方面的能力以及丰富机器人训练数据。

Alchemist 背后的魔力始于一个去噪扩散模型：在实践中，研究人员使用了 Stable Diffusion 1.5，这是一个文本到图像的模型，因其逼真的效果和编辑功能而备受赞誉。之前的研究建立在流行的模型之上，使用户能够进行更高级别的更改，例如交换对象或改变图像的深度。相比之下，CSAIL 和 Google Research 的方法应用此模型来关注低级属性，通过独特的基于滑块的界面修改对象材料属性的更精细的细节，其性能优于其他同类产品。

虽然之前的扩散系统可以为图像变出一只兔子，但 Alchemist 可以将同一只动物变成半透明的。该系统还可以使小黄鸭呈现出金属质感，去除金鱼的金色，并使旧鞋发亮。Photoshop 等程序具有类似的功能，但此模型可以更直接地更改材料属性。例如，在广泛使用的应用程序中，修改照片的金属外观需要几个步骤。

“当你看到自己创建的图像时，结果往往与你想象的并不完全一致，”麻省理工学院电气工程和计算机科学博士生、CSAIL 附属机构、一篇描述这项工作的新论文的主要作者 Prafull Sharma 说道。“你想在编辑图片时控制它，但图像编辑器中现有的控件无法更改材质。借助 Alchemist，我们利用文本到图像模型输出的照片级真实感，并梳理出一个滑块控件，让我们可以在提供初始图片后修改特定属性。”

精确控制

“文本到图像的生成模型使日常用户能够像写句子一样轻松地生成图像。然而，控制这些模型可能具有挑战性，”卡内基梅隆大学助理教授 Jun-Yan Zhu（未参与该论文）表示。“虽然生成花瓶很简单，但合成具有特定材料属性（例如透明度和粗糙度）的花瓶需要用户花费数小时尝试不同的文本提示和随机种子。这可能会令人沮丧，尤其是对于需要精确工作的专业用户而言。Alchemist 通过精确控制输入图像的材料，同时利用大规模扩散模型的数据驱动先验，为这一挑战提供了一个实用的解决方案，启发未来的研究将生成模型无缝地整合到常用内容创建软件的现有界面中。”

Alchemist 的设计功能可以帮助调整视频游戏中不同模型的外观。在此领域应用这种扩散模型可以帮助创作者加快设计过程，细化纹理以适应关卡的游戏玩法。此外，Sharma 及其团队的项目可以帮助改变图形设计元素、视频和电影效果，以增强照片真实感并精确实现所需的材料外观。

该方法还可以改进机器人训练数据，以完成诸如操作等任务。通过向机器介绍更多纹理，它们可以更好地理解它们在现实世界中将要抓取的各种物品。Alchemist 甚至可能有助于图像分类，分析神经网络无法识别图像的物质变化的地方。

Sharma 及其团队的工作在忠实编辑所需对象方面超越了类似模型。例如，当用户提示不同的模型将海豚调整到最大透明度时，只有 Alchemist 实现了这一壮举，同时保持海洋背景未编辑。当研究人员使用与他们的方法相同的数据训练可比较的扩散模型 InstructPix2Pix 以进行比较时，他们发现 Alchemist 获得了更高的准确度分数。同样，一项用户研究表明，MIT 模型更受欢迎，并且被认为比其同类模型更逼真。

利用合成数据保证真实性

研究人员表示，收集真实数据是不切实际的。相反，他们在合成数据集上训练模型，在流行的计算机图形设计工具 Blender 中随机编辑应用于 100 个公开、独特的 3D 对象的 1,200 种材料的材料属性。

麻省理工学院电气工程与计算机科学系 (EECS) 的 Amar Bose 计算机教授、CSAIL 成员、论文的资深作者 Frédo Durand 表示：“迄今为止，生成式 AI 图像合成的控制一直受到文本描述内容的限制。这项研究为数十年来计算机图形学研究中继承的视觉属性开辟了新的、更精细的控制。”

“Alchemist 是一种让机器学习和传播模型变得实用且对 CGI 社区和图形设计师有用的技术，”Google Research 高级软件工程师兼合著者 Mark Matthews 补充道。“没有它，你就会陷入这种无法控制的随机性。它可能一时很有趣，但在某些时候，你需要完成真正的工作并让它遵循创造性的愿景。”

不过，Alchemist 目前仍存在一些局限性。该模型很难正确推断照明，因此有时无法遵循用户的输入。Sharma 指出，这种方法有时也会产生物理上不可信的透明度。例如，想象一下一只手部分进入麦片盒——在 Alchemist 对此属性的最大设置下，您会看到一个透明的容器，而无需手指伸进去。

研究人员希望进一步研究这种模型如何在场景层面改善图形的 3D 资产。此外，Alchemist 还可以帮助从图像中推断材料特性。据 Sharma 称，这类工作将来可以揭开物体视觉和机械特性之间的联系。

MIT EECS 教授兼 CSAIL 成员 William T. Freeman 也是本文的资深作者，与 Varun Jampani、Google Research 科学家 Yuanzhen Li PhD '09、Xuhui Jia 和 Dmitry Lagun 一起。这项研究部分由美国国家科学基金会拨款以及 Google 和亚马逊的捐赠支持。该团队的研究成果将于 6 月在 CVPR 上重点展示。

1716926610
2024-05-28 19:30:00
#受控扩散模型可以改变图像中的材料属性 #MIT #新闻