政策组成 - Mandarinian

一种更有效的多用途机器人技术 | 麻省理工学院新闻

假设你想训练一个机器人，让它了解如何使用工具，然后可以快速学会用锤子、扳手和螺丝刀修理房子。要做到这一点，你需要大量展示工具使用的数据。现有的机器人数据集在形式上千差万别——例如，有些包括彩色图像，而另一些则由触觉印记组成。数据也可以在不同的领域收集，例如模拟或人类演示。每个数据集可能捕获一个独特的任务和环境。很难在一个机器学习模型中高效整合来自如此多来源的数据，因此许多方法只使用一种类型的数据来训练机器人。但以这种方式训练的机器人，由于任务特定数据相对较少，通常无法在陌生的环境中执行新任务。为了训练更好的多用途机器人，麻省理工学院的研究人员开发了一种技术，使用一种称为扩散模型的生成式人工智能，将跨领域、跨模式和跨任务的多种数据源结合起来。他们训练一个单独的扩散模型来学习使用一个特定数据集完成一项任务的策略或政策。然后，他们将扩散模型学习到的策略组合成一个通用策略，使机器人能够在各种设置中执行多项任务。在模拟和真实世界实验中，这种训练方法使机器人能够执行多种工具使用任务，并适应训练期间未见过的新任务。与基线技术相比，这种方法称为策略组合 (PoCo)，可将任务性能提高 20%。 “解决机器人数据集中的异质性就像先有鸡还是先有蛋的问题。如果我们想使用大量数据来训练一般的机器人策略，那么我们首先需要可部署的机器人来获取所有这些数据。我认为利用所有可用的异构数据，就像研究人员对 ChatGPT 所做的那样，是机器人领域迈出的重要一步，”电气工程和计算机科学 (EECS) 研究生、论文的主要作者 Lirui Wang 说道。关于 PoCo 的论文。王的合著者包括机械工程研究生 Jialiang Zhao；EECS 研究生 Yilun Du；脑与认知科学系 John and Dorothy Wilson 视觉科学教授、计算机科学与人工智能实验室 (CSAIL) 成员 Edward Adelson；以及资深作者 Russ Tedrake，EECS、航空航天和机械工程丰田教授、CSAIL 成员。这项研究将在机器人：科学与系统会议上发表。合并不同的数据集机器人策略是一种机器学习模型，它接收输入并使用它们来执行操作。将策略视为一种策略是一种思考方式。对于机械臂而言，该策略可能是一条轨迹，或一系列移动机械臂的姿势，以便机械臂拿起锤子并用它敲钉子。用于学习机器人策略的数据集通常很小，并且专注于一项特定的任务和环境，例如将物品装入仓库中的箱子中。 “每个机器人仓库都会产生数 TB 的数据，但这些数据只属于处理这些包裹的特定机器人装置。如果你想用所有这些数据来训练一台通用机器，这并不理想，”王说。麻省理工学院的研究人员开发了一种技术，可以获取一系列较小的数据集（例如从许多机器人仓库收集的数据集），从每个数据集中学习单独的策略，并以一种使机器人能够推广到许多任务的方式组合这些策略。它们使用一种称为扩散模型的生成式 AI 模型来表示每项策略。扩散模型通常用于图像生成，它通过迭代优化输出来学习创建与训练数据集中的样本相似的新数据样本。但研究人员并没有教扩散模型生成图像，而是教它为机器人生成轨迹。他们通过在训练数据集的轨迹中添加噪声来实现这一点。扩散模型会逐渐消除噪声并将其输出细化为轨迹。这种技术被称为扩散政策，之前由麻省理工学院、哥伦比亚大学和丰田研究所的研究人员提出。PoCo 以这项扩散政策工作为基础。该团队使用不同类型的数据集来训练每个扩散模型，例如一个数据集来自人类视频演示，另一个数据集来自机械臂的远程操作。然后，研究人员对所有扩散模型所学习到的单个策略进行加权组合，迭代地优化输出，使得组合策略满足每个单个策略的目标。大于各部分之和 “这种方法的好处之一是，我们可以结合各种策略，实现两全其美。例如，在现实世界数据上训练的策略可能能够实现更高的灵活性，而在模拟上训练的策略可能能够实现更高的泛化能力，”王说。 […]

Tag: 政策组成

一种更有效的多用途机器人技术 | 麻省理工学院新闻

信息