受控扩散模型可以改变图像中的材料属性 | MIT 新闻

麻省理工学院计算机科学与人工智能实验室 (CSAIL) 和谷歌研究中心的研究人员可能刚刚进行了数字魔法——以扩散模型的形式,可以改变图像中物体的材质属性。 配音 炼金术士该系统允许用户改变真实图片和人工智能生成的图片的四个属性:粗糙度、金属度、反照率(物体的初始基色)和透明度。作为图像到图像的扩散模型,可以输入任何照片,然后在 -1 到 1 的连续范围内调整每个属性以创建新的视觉效果。这些照片编辑功能可能会扩展到改进视频游戏中的模型、扩展人工智能在视觉效果方面的能力以及丰富机器人训练数据。 Alchemist 背后的魔力始于一个去噪扩散模型:在实践中,研究人员使用了 Stable Diffusion 1.5,这是一个文本到图像的模型,因其逼真的效果和编辑功能而备受赞誉。之前的研究建立在流行的模型之上,使用户能够进行更高级别的更改,例如交换对象或改变图像的深度。相比之下,CSAIL 和 Google Research 的方法应用此模型来关注低级属性,通过独特的基于滑块的界面修改对象材料属性的更精细的细节,其性能优于其他同类产品。 虽然之前的扩散系统可以为图像变出一只兔子,但 Alchemist 可以将同一只动物变成半透明的。该系统还可以使小黄鸭呈现出金属质感,去除金鱼的金色,并使旧鞋发亮。Photoshop 等程序具有类似的功能,但此模型可以更直接地更改材料属性。例如,在广泛使用的应用程序中,修改照片的金属外观需要几个步骤。 “当你看到自己创建的图像时,结果往往与你想象的并不完全一致,”麻省理工学院电气工程和计算机科学博士生、CSAIL 附属机构、一篇描述这项工作的新论文的主要作者 Prafull Sharma 说道。“你想在编辑图片时控制它,但图像编辑器中现有的控件无法更改材质。借助 Alchemist,我们利用文本到图像模型输出的照片级真实感,并梳理出一个滑块控件,让我们可以在提供初始图片后修改特定属性。” 精确控制 “文本到图像的生成模型使日常用户能够像写句子一样轻松地生成图像。然而,控制这些模型可能具有挑战性,”卡内基梅隆大学助理教授 Jun-Yan Zhu(未参与该论文)表示。“虽然生成花瓶很简单,但合成具有特定材料属性(例如透明度和粗糙度)的花瓶需要用户花费数小时尝试不同的文本提示和随机种子。这可能会令人沮丧,尤其是对于需要精确工作的专业用户而言。Alchemist 通过精确控制输入图像的材料,同时利用大规模扩散模型的数据驱动先验,为这一挑战提供了一个实用的解决方案,启发未来的研究将生成模型无缝地整合到常用内容创建软件的现有界面中。” Alchemist 的设计功能可以帮助调整视频游戏中不同模型的外观。在此领域应用这种扩散模型可以帮助创作者加快设计过程,细化纹理以适应关卡的游戏玩法。此外,Sharma 及其团队的项目可以帮助改变图形设计元素、视频和电影效果,以增强照片真实感并精确实现所需的材料外观。 该方法还可以改进机器人训练数据,以完成诸如操作等任务。通过向机器介绍更多纹理,它们可以更好地理解它们在现实世界中将要抓取的各种物品。Alchemist 甚至可能有助于图像分类,分析神经网络无法识别图像的物质变化的地方。 Sharma 及其团队的工作在忠实编辑所需对象方面超越了类似模型。例如,当用户提示不同的模型将海豚调整到最大透明度时,只有 Alchemist 实现了这一壮举,同时保持海洋背景未编辑。当研究人员使用与他们的方法相同的数据训练可比较的扩散模型 InstructPix2Pix 以进行比较时,他们发现 Alchemist 获得了更高的准确度分数。同样,一项用户研究表明,MIT 模型更受欢迎,并且被认为比其同类模型更逼真。 利用合成数据保证真实性 研究人员表示,收集真实数据是不切实际的。相反,他们在合成数据集上训练模型,在流行的计算机图形设计工具 Blender 中随机编辑应用于 100 个公开、独特的 3D 对象的 […]

Janabel Xia:算法、舞蹈节奏和成功的动力 | 麻省理工学院新闻

高级数学专业贾纳贝尔·夏(Janabel Xia)研究的是一个不断运动的人。 当她没有整理算法和改进无人驾驶车辆的交通控制系统时,她就作为至少四个舞蹈俱乐部的成员跳舞。 她加入了多个社会正义组织,致力于密码学和网络身份验证技术,并创建了一个允许用户匿名投票的投票应用程序。 在最后一个学期,她全力以赴,通过在交通灯交叉口使用传感器来减少城市交通的碳足迹。 第一步 贾纳贝尔在马萨诸塞州列克星敦长大,从小学起就一直参加数学队的比赛。 她的数学小组在开学前的清晨开会,她发现对解决问题的热爱比课堂上的“即插即用练习”对她更具挑战性。 在列克星敦高中时,她是数学队队长,两次参加数学奥林匹克竞赛,并且是美国队银牌得主。 欧洲女子数学奥林匹克竞赛。 作为数学专业的学生,​​她研究组合学和理论计算机科学,包括理论和应用密码学。 大二时,她是麻省理工学院计算机科学与人工智能实验室密码学与信息安全组的研究员,在教授的指导下进行密码分析研究 维诺德·瓦昆塔纳坦。 她对密码学的兴趣部分源于其基础数学本身的魅力——这个领域感觉就像是用数学工具进行巧妙的工程。 但她对密码学的兴趣的另一部分源于其政治层面,包括其从根本上改变现有权力结构和治理的潜力。 夏与加州大学伯克利分校和斯坦福大学的学生创建 民意调查是一款用 Circcom 编程语言编写的私人投票应用程序,允许用户为特定人群创建民意调查,同时生成零知识证明,隐藏个人信息,以减少公众看法的负面投票影响。 她参加 PKG 中心的活动 积极的社区参与 新生入学指导计划让她结识了当地社区组织,这些组织专注于食品安全、为曾被监禁的人提供住房以及获得医疗保健。她也是 为革命而读书,一个学生读书俱乐部,讨论麻省理工学院和大波士顿地区的种族、阶级和工人阶级运动。 夏的教育经历促使她不断追求在城市规划相关领域将数学和计算方法结合起来。 “当我意识到规划与设计一样关心社会正义时,我对这个领域更加感兴趣。” 继续自动驾驶 她与 城市研究与规划系 目前正在与数据、系统和社会研究所的 Cathy Wu 教授一起开展本科生研究机会计划 (UROP) 项目。 吴和博士生最近在生态驾驶方面的工作 温杜拉·贾亚瓦达纳 研究了与位于交通路口的传感器进行通信的半自动车辆,理论上可以减少高达 21% 的碳排放。 Xia 的目标是优化这些传感器在交通路口的实施方案,考虑采用分级方案,最初可能只安装所有传感器的 20%,然后分批添加更多传感器。 她希望最大限度地提高流程每个步骤的减排率,并确保不会不必要地安装和拆卸此类传感器。 舞蹈编号 与此同时,夏已成为麻省理工学院的成员 固定, 里东库卢斯、MissBehavior团体,并担任中国传统舞蹈编导 麻省理工学院亚洲舞蹈队。 夏从三岁起就开始跳舞,她从中国传统舞蹈开始,后来又加入了芭蕾舞和爵士乐。 因为她既是一名舞蹈家,又是一名研究员,所以她已经找到了如何让自己的日程安排正常进行的方法。 “制作周总是很疯狂,舞者们从教室直接跑到彩排和演出,整个晚上,第二天一早回来,关掉灯光,卷起马利 [material that […]

为高效的视觉人工智能系统创建定制编程语言 | 麻省理工学院新闻

单张照片可以让我们一窥创作者的世界——他们对某个主题或空间的兴趣和感受。 但是那些帮助使这些图像成为可能的技术背后的创造者呢? 麻省理工学院电气工程和计算机科学系副教授 Jonathan Ragan-Kelley 就是其中之一,他设计了从电影视觉效果工具到广泛应用于工业照片编辑和处理的 Halide 编程语言等各种设计。 作为 MIT-IBM Watson AI 实验室和计算机科学与人工智能实验室的研究员,Ragan-Kelley 专注于高性能、特定领域的编程语言和机器学习,可实现 2D 和 3D 图形、视觉效果和计算摄影。 “我们大量研究的最大推动力是开发新的编程语言,使编写能够在当今计算机中日益复杂的硬件上真正高效运行的程序变得更容易,”Ragan-Kelley 说。 “如果我们想继续提高我们可以实际用于实际应用的计算能力——从图形和视觉计算到人工智能——我们需要改变我们的编程方式。” 寻找中间立场 在过去的二十年里,芯片设计师和编程工程师目睹了速度的放缓 摩尔定律 以及从 CPU 上的通用计算向 GPU 和加速器等更加多样化和专业化的计算和处理单元的显着转变。 这种转变带来了一种权衡:在 CPU 上运行通用代码的速度稍慢,而硬件速度更快、更高效,需要代码对其进行大量调整,并通过定制的程序和编译器映射到它。 具有改进编程的新型硬件可以更好地支持高带宽蜂窝无线电接口、解码高度压缩的视频以进行流式传输以及功耗受限的手机摄像头上的图形和视频处理等应用。 “我们的工作主要是释放我们可以构建的最佳硬件的力量,以传统编程语言无法做到的方式为此类应用程序提供尽可能多的计算性能和效率。” 为了实现这一目标,拉根-凯利将他的工作分为两个方向。 首先,他牺牲了通用性来捕获特定且重要的计算问题的结构,并利用它来提高计算效率。 这可以在图像处理语言 Halide 中看到,该语言是他共同开发的,并帮助改变了 Photoshop 等程序中的图像编辑行业。 此外,由于它是专门为快速处理密集的、规则的数字(张量)数组而设计的,因此它也适用于神经网络计算。 第二个重点是自动化,特别是编译器如何将程序映射到硬件。 MIT-IBM Watson AI 实验室的一个此类项目利用了 Exo,这是 Ragan-Kelley 小组开发的一种语言。 多年来,研究人员一直坚持不懈地使用编译器进行自动化编码,而编译器可能是一个黑匣子。 然而,仍然非常需要性能工程师进行显式控制和调整。 Ragan-Kelley 和他的团队正在开发跨每种技术的方法,平衡权衡以实现有效且资源高效的编程。 许多高性能程序(例如视频游戏引擎或手机摄像头处理)的核心是最先进的系统,这些系统很大程度上由人类专家使用 […]

研究:运动障碍 ALS 和认知障碍 FTLD 显示出强烈的分子重叠麻省理工学院新闻

从表面上看,运动障碍性肌萎缩侧索硬化症(ALS)(也称为卢伽雷氏病)和认知障碍额颞叶变性(FTLD)(额颞叶痴呆的基础)的表现方式截然不同。 此外,已知它们主要影响大脑的不同区域。 然而,多年来医生和科学家注意到了一些相似之处,并且 杂志上发表的一项新研究 细胞 研究表明,这些疾病在细胞和分子水平上有显着的重叠,揭示了可能产生适用于这两种疾病的治疗方法的潜在靶标。 这篇论文由麻省理工学院和梅奥诊所的科学家领导,追踪了 73 名被诊断患有 ALS、FTLD 或神经系统未受影响的捐献者死后大脑样本中运动皮层和前额皮质的 620,000 个细胞(涵盖 44 种不同细胞类型)的 RNA 表达模式。 “我们专注于两个大脑区域,我们预计这两个区域在两种疾病之间会受到不同的影响,”说 马诺利斯·凯利斯,该论文的共同高级作者,计算机科学教授,麻省理工学院计算机科学与人工智能实验室的首席研究员。 “事实证明,在分子和细胞水平上,我们发现这两种疾病的变化几乎相同,并且影响了两个区域之间几乎相同的细胞类型子集。” 事实上,该研究最突出的发现之一表明,在这两种疾病中,最脆弱的神经元在它们表达的基因以及这些基因在每种疾病中的表达变化方面几乎是相同的。 “这些相似之处非常惊人,表明 ALS 的治疗方法也可能适用于 FTLD,反之亦然,”主要通讯作者说 米里亚姆·海曼,他是麻省理工学院皮考尔学习与记忆研究所的大脑和认知科学副教授和研究员。 “我们的研究可以帮助指导可能对这两种疾病有效的治疗方案。” 海曼和凯利斯与共同资深作者 Veronique Belzil 合作,后者当时是佛罗里达州梅奥诊所的神经科学副教授,现任范德比尔特大学 ALS 研究中心主任。 该研究的另一个关键认识是,患有遗传性与散发性疾病的大脑捐赠者表现出类似的基因表达变化,尽管以前认为这些变化有不同的原因。 这表明类似的分子过程可能在疾病起源的下游出现问题。 “这些疾病的家族性(单基因)形式和散发性(多基因)形式之间的分子相似性表明,不同的病因学会趋同于共同的途径,”凯利斯说。 “这对于理解患者异质性以及更广泛地理解复杂和罕见疾病具有重要意义。” “几乎无法区分”的个人资料 研究发现,在观察受影响最严重的细胞时,这种重叠尤其明显。 在 ALS 中,已知会导致进行性瘫痪并最终死亡,大脑中最濒危的细胞是运动皮层第 5 层的上运动神经元 (UMN)。 与此同时,在行为变异型额颞叶痴呆 (bvFTD)(最常见的 FTLD 类型,其特征是人格和行为改变)中,最脆弱的神经元是纺锤形神经元或 von Economo 细胞,存在于额叶大脑区域的第 5 层。 这项新研究表明,虽然这些细胞在显微镜下看起来不同,并且在大脑回路中形成不同的连接,但它们在健康和疾病中的基因表达却惊人地相似。 […]

AI 一步生成高质量图像的速度提高了 30 倍 | 麻省理工学院新闻

在当今人工智能时代,计算机可以通过以下方式生成自己的“艺术” 扩散模型,迭代地向嘈杂的初始状态添加结构,直到出现清晰的图像或视频。 扩散模型突然在每个人的餐桌上占据了一席之地:输入几个词,在现实与幻想的交汇处体验瞬间的、令人多巴胺飙升的梦境。 在幕后,它涉及一个复杂、耗时的过程,需要算法进行多次迭代才能完善图像。 麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员推出了一种新框架,将传统扩散模型的多步骤过程简化为单个步骤,解决了以前的局限性。 这是通过一种师生模型来完成的:教授一个新的计算机模型来模仿生成图像的更复杂的原始模型的行为。 该方法被称为 分布匹配蒸馏 (DMD),保留生成图像的质量并允许更快的生成。 “我们的工作是一种新颖的方法,可以将稳定扩散和 DALLE-3 等当前扩散模型加速 30 倍,”麻省理工学院电气工程和计算机科学博士生、CSAIL 附属机构、DMD 首席研究员 Tianwei Yin 说道。框架。 “这一进步不仅显着减少了计算时间,而且保留了(如果不是超越的话)生成的视觉内容的质量。 理论上,该方法将生成对抗网络(GAN)的原理与扩散模型的原理结合起来,一步实现视觉内容生成——这与当前扩散模型所需的数百步迭代细化形成鲜明对比。 它可能是一种新的生成建模方法,在速度和质量方面都表现出色。” 这种单步扩散模型可以增强设计工具,实现更快的内容创建,并有可能支持药物发现和 3D 建模的进步,其中及时性和有效性是关键。 分销梦想 DMD 巧妙地具有两个组件。 首先,它使用回归损失,锚定映射以确保图像空间的粗略组织,从而使训练更加稳定。 接下来,它使用分布匹配损失,确保使用学生模型生成给定图像的概率与其真实世界的出现频率相对应。 为此,它利用两个扩散模型作为指导,帮助系统了解真实图像和生成图像之间的差异,并使训练快速的一步生成器成为可能。 该系统通过训练新网络来最小化其生成的图像与传统扩散模型使用的训练数据集中的图像之间的分布差异,从而实现更快的生成。 “我们的主要见解是使用两个扩散模型来近似指导新模型的改进,”尹说。 “通过这种方式,我们将原始的、更复杂的模型的知识提炼成更简单、更快的模型,同时绕过 GAN 中臭名昭著的不稳定和模式崩溃问题。” Yin 和同事为新的学生模型使用了预先训练的网络,简化了过程。 通过复制和微调原始模型的参数,团队实现了新模型的快速训练收敛,能够在相同的架构基础上生成高质量的图像。 “这使得能够与基于原始架构的其他系统优化相结合,进一步加速创建过程,”尹补充道。 当使用各种基准测试通常的方法时,DMD 表现出了一致的性能。 在 ImageNet 上基于特定类别生成图像的流行基准中,DMD 是第一个一步扩散技术,它生成的图像与原始的、更复杂的模型中的图像几乎相当,摇动了超近的 Fréchet 起始距离( FID)得分仅为 0.3,这令人印象深刻,因为 FID 的目的就是判断生成图像的质量和多样性。 此外,DMD 在工业规模的文本到图像生成方面表现出色,并实现了最先进的一步生成性能。 在处理更棘手的文本到图像应用程序时,仍然存在轻微的质量差距,这表明还有一些改进的空间。 […]

平流层安全标准:航空业如何引导人工智能在健康领域的监管麻省理工学院新闻

死于飞机失事的可能性有多大? 根据国际航空运输协会发布的2022年报告,行业死亡风险为0.11。 换句话说,平均而言,一个人需要连续 25,214 年每天乘坐一次航班,才有 100% 的机会遭遇致命事故。 长期以来,航空业一直被誉为最安全的交通方式之一,受到严格监管的航空业让麻省理工学院的科学家认为,它可能是监管医疗保健领域人工智能的关键。 麻省理工学院电气工程与计算机科学系 (EECS) 和医学工程科学研究所的助理教授 Marzyeh Ghassemi 和麻省理工学院航空航天学 HN Slater 教授 Julie Shah 都对透明度挑战感兴趣人工智能模型。 2023 年初聊天后,他们意识到航空可以作为一种模式,确保边缘化患者不会受到有偏见的人工智能模型的伤害。 Ghassemi 也是麻省理工学院安利捷健康机器学习诊所 (Jameel Clinic) 和计算机科学与人工智能实验室 (CSAIL) 的首席研究员,Shah 随后招募了一个由研究人员、律师、麻省理工学院、斯坦福大学、美国科学家联合会、埃默里大学、阿德莱德大学、微软和加州大学旧金山分校的政策分析师启动了一个研究项目, 其结果 最近被接受参加算法、机制和优化会议的公平和访问。 第一作者 Elizabeth Bondi-Kelly 表示:“我认为我们的许多合著者都对人工智能产生积极社会影响的潜力感到兴奋,尤其是最近取得的进展。”她现在是密歇根大学 EECS 助理教授,当时是 Ghassemi 实验室的博士后。项目开始了。 “但我们也持谨慎态度,希望开发框架来管理部署开始时的潜在风险,因此我们正在为此类框架寻找灵感。” 麻省理工学院航空航天系博士生、论文合著者 Lindsay Sanneman 表示,今天的人工智能在健康领域的应用与一个世纪前的航空业相似。 尽管 20 年代被称为“航空黄金时代”, 致命事故“多得令人不安” 根据麦基诺公共政策中心的数据。 美国国家运输安全委员会 (NTSB) 安全建议部门现任负责人杰夫·马库斯 (Jeff Marcus) […]

多种AI模型帮助机器人更透明地执行复杂计划 | 麻省理工学院新闻

您的每日待办事项清单可能非常简单:洗碗、购买杂货和其他细节。 你不太可能写下“拿起第一个脏盘子”或“用海绵清洗盘子”,因为家务活中的每一个微型步骤都感觉很直观。 虽然我们可以不加思考地例行完成每个步骤,但机器人需要一个复杂的计划,其中涉及更详细的轮廓。 麻省理工学院的 Improbable AI 实验室是计算机科学与人工智能实验室 (CSAIL) 内的一个小组,它通过新的多模式框架为这些机器提供了帮助: 分层规划的组合基础模型 (HiP),利用三种不同基础模型的专业知识制定详细、可行的计划。 与 OpenAI 的 GPT-4(ChatGPT 和 Bing Chat 所基于的基础模型)一样,这些基础模型接受了大量数据的训练,适用于生成图像、翻译文本和机器人等应用。 与 RT2 和其他在配对视觉、语言和动作数据上进行训练的多模态模型不同,HiP 使用三种不同的基础模型,每个模型都在不同的数据模态上进行训练。 每个基础模型捕获决策过程的不同部分,然后在需要做出决策时一起工作。 HiP 消除了访问配对视觉、语言和动作数据的需要,而这些数据很难获得。 HiP 还使推理过程更加透明。 人类日常琐事可能是机器人的“长期目标”——一个总体目标,涉及首先完成许多较小的步骤——需要足够的数据来计划、理解和执行目标。 虽然计算机视觉研究人员试图为这个问题构建整体基础模型,但配对语言、视觉和动作数据的成本很高。 相反,HiP 代表了一种不同的多模式配方:将语言、物理和环境智能廉价地整合到机器人中的三重奏。 “基础模型不必是单一的,”未参与该论文的 NVIDIA AI 研究员 Jim Fan 说道。 “这项工作将具体代理规划的复杂任务分解为三个组成模型:语言推理器、视觉世界模型和行动规划器。 它使困难的决策问题变得更加容易处理和透明。” 该团队相信他们的系统可以帮助这些机器完成家务,例如收起一本书或将一个碗放入洗碗机中。 此外,HiP 可以协助完成多步骤的构建和制造任务,例如按特定顺序堆叠和放置不同的材料。 评估 HiP CSAIL 团队测试了 HiP 在三项操作任务上的敏锐度,其表现优于同类框架。 该系统通过开发适应新信息的智能计划来进行推理。 首先,研究人员要求它将不同颜色的块相互堆叠,然后将其他块放在附近。 问题是:一些正确的颜色不存在,因此机器人必须将白色块放入颜色碗中才能绘制它们。 HiP 经常准确地适应这些变化,特别是与 […]