一种更有效的多用途机器人技术 | 麻省理工学院新闻

假设你想训练一个机器人，让它了解如何使用工具，然后可以快速学会用锤子、扳手和螺丝刀修理房子。要做到这一点，你需要大量展示工具使用的数据。

现有的机器人数据集在形式上千差万别——例如，有些包括彩色图像，而另一些则由触觉印记组成。数据也可以在不同的领域收集，例如模拟或人类演示。每个数据集可能捕获一个独特的任务和环境。

很难在一个机器学习模型中高效整合来自如此多来源的数据，因此许多方法只使用一种类型的数据来训练机器人。但以这种方式训练的机器人，由于任务特定数据相对较少，通常无法在陌生的环境中执行新任务。

为了训练更好的多用途机器人，麻省理工学院的研究人员开发了一种技术，使用一种称为扩散模型的生成式人工智能，将跨领域、跨模式和跨任务的多种数据源结合起来。

他们训练一个单独的扩散模型来学习使用一个特定数据集完成一项任务的策略或政策。然后，他们将扩散模型学习到的策略组合成一个通用策略，使机器人能够在各种设置中执行多项任务。

在模拟和真实世界实验中，这种训练方法使机器人能够执行多种工具使用任务，并适应训练期间未见过的新任务。与基线技术相比，这种方法称为策略组合 (PoCo)，可将任务性能提高 20%。

“解决机器人数据集中的异质性就像先有鸡还是先有蛋的问题。如果我们想使用大量数据来训练一般的机器人策略，那么我们首先需要可部署的机器人来获取所有这些数据。我认为利用所有可用的异构数据，就像研究人员对 ChatGPT 所做的那样，是机器人领域迈出的重要一步，”电气工程和计算机科学 (EECS) 研究生、论文的主要作者 Lirui Wang 说道。关于 PoCo 的论文。

王的合著者包括机械工程研究生 Jialiang Zhao；EECS 研究生 Yilun Du；脑与认知科学系 John and Dorothy Wilson 视觉科学教授、计算机科学与人工智能实验室 (CSAIL) 成员 Edward Adelson；以及资深作者 Russ Tedrake，EECS、航空航天和机械工程丰田教授、CSAIL 成员。这项研究将在机器人：科学与系统会议上发表。

合并不同的数据集

机器人策略是一种机器学习模型，它接收输入并使用它们来执行操作。将策略视为一种策略是一种思考方式。对于机械臂而言，该策略可能是一条轨迹，或一系列移动机械臂的姿势，以便机械臂拿起锤子并用它敲钉子。

用于学习机器人策略的数据集通常很小，并且专注于一项特定的任务和环境，例如将物品装入仓库中的箱子中。

“每个机器人仓库都会产生数 TB 的数据，但这些数据只属于处理这些包裹的特定机器人装置。如果你想用所有这些数据来训练一台通用机器，这并不理想，”王说。

麻省理工学院的研究人员开发了一种技术，可以获取一系列较小的数据集（例如从许多机器人仓库收集的数据集），从每个数据集中学习单独的策略，并以一种使机器人能够推广到许多任务的方式组合这些策略。

它们使用一种称为扩散模型的生成式 AI 模型来表示每项策略。扩散模型通常用于图像生成，它通过迭代优化输出来学习创建与训练数据集中的样本相似的新数据样本。

但研究人员并没有教扩散模型生成图像，而是教它为机器人生成轨迹。他们通过在训练数据集的轨迹中添加噪声来实现这一点。扩散模型会逐渐消除噪声并将其输出细化为轨迹。

这种技术被称为扩散政策，之前由麻省理工学院、哥伦比亚大学和丰田研究所的研究人员提出。PoCo 以这项扩散政策工作为基础。

该团队使用不同类型的数据集来训练每个扩散模型，例如一个数据集来自人类视频演示，另一个数据集来自机械臂的远程操作。

然后，研究人员对所有扩散模型所学习到的单个策略进行加权组合，迭代地优化输出，使得组合策略满足每个单个策略的目标。

大于各部分之和

“这种方法的好处之一是，我们可以结合各种策略，实现两全其美。例如，在现实世界数据上训练的策略可能能够实现更高的灵活性，而在模拟上训练的策略可能能够实现更高的泛化能力，”王说。

通过策略组合，研究人员能够组合来自多个来源的数据集，从而可以教会机器人有效地使用各种工具，例如锤子、螺丝刀或抹刀。

图片：研究人员提供

由于这些策略是单独训练的，因此可以混合搭配扩散策略，以针对特定任务取得更好的结果。用户还可以通过使用该数据集训练额外的扩散策略来在新的模态或领域中添加数据，而不必从头开始整个过程。

研究人员开发的策略组合技术可用于有效地教机器人使用工具，即使机器人周围放置物体以试图分散其执行任务的注意力，如图所示。

图片：研究人员提供

研究人员在模拟和真实机械臂上测试了 PoCo，这些机械臂执行了各种工具任务，例如使用锤子敲钉子和用铲子翻转物体。与基线方法相比，PoCo 使任务性能提高了 20%。

“引人注目的是，当我们完成调整并将其可视化时，我们可以清楚地看到组合轨迹比单独的任何一条轨迹看起来都要好得多，”王说。

未来，研究人员希望将这项技术应用于长期任务，即机器人会拾取一个工具，使用它，然后切换到另一个工具。他们还希望整合更大的机器人数据集来提高性能。

“我们需要三种数据才能让机器人技术取得成功：互联网数据、模拟数据和真实机器人数据。如何有效地将它们结合起来将是一个价值百万美元的问题。PoCo 是朝着正确方向迈出的坚实一步，”NVIDIA 高级研究科学家、AI 代理计划负责人 Jim Fan 表示，他并未参与这项工作。

这项研究的部分资金由亚马逊、新加坡国防科学技术局、美国国家科学基金会和丰田研究所提供。

1717426534
#一种更有效的多用途机器人技术 #麻省理工学院新闻
2024-06-03 04:00:00

Tags: Lirui Wang, 一种更有效的多用途机器人技术, 异构机器人学习, 拉斯·特德雷克, 政策组成, 机器人, 爱德华·阿德尔森, 生成式人工智能模型, 麻省理工学院新闻

一种更有效的多用途机器人技术 | 麻省理工学院新闻

Related

相关新闻

部分 Verizon 和 T-Mobile 用户仍在等待 6 月份的 Pixel 功能发布

凯蒂·佩里身穿小巧钩针比基尼和金属腿宣布新音乐

心肾疾病的健康社会决定因素

凯文·马格努森分享了哈斯告诉他的关于 2025 年保住席位的可能性

GERB 与“有这样的人”谈判后的评论（视频）

中东直播：联合国人权事务负责人：西岸局势“急剧恶化”

商会必须指示马丁·博斯马 (Martin Bosma) 派一名副主席前往凯蒂·科蒂 (Keti Koti) – Joop

被遗忘的未能致富的苹果创始人

年度最佳剧目是《大师和玛格丽特》，年度最佳演员是 Ilze Ķuzule-Skrastiņa 和 Arturs Krūzkops / Diena

莱比锡事件迫使 SIC 记者去医院 – Observador

美国宇航局将在 2020 年前在天空中放置一颗新“星星”

一切都头脑特工队 2 · 电影 2024 · 预告片 · 评论

Leave a Reply Cancel reply

近期新闻

部分 Verizon 和 T-Mobile 用户仍在等待 6 月份的 Pixel 功能发布

凯蒂·佩里身穿小巧钩针比基尼和金属腿宣布新音乐

心肾疾病的健康社会决定因素

凯文·马格努森分享了哈斯告诉他的关于 2025 年保住席位的可能性

GERB 与“有这样的人”谈判后的评论（视频）

中东直播：联合国人权事务负责人：西岸局势“急剧恶化”

编辑精选

信息

More Interesting News

部分 Verizon 和 T-Mobile 用户仍在等待 6 月份的 Pixel 功能发布

凯蒂·佩里身穿小巧钩针比基尼和金属腿宣布新音乐

一种更有效的多用途机器人技术 | 麻省理工学院新闻

Share this:

Related

相关新闻

Leave a Reply Cancel reply

近期新闻​

编辑精选​

Tags

信息

More Interesting News

近期新闻

编辑精选