用于机器人物体操控的开源通用模型

这些是我们测试 Octo 的机器人——你可以看到,机器人手臂种类繁多,从小型到大型,从单臂到双手。Octo 能够控制所有这些机器人。图片来源:Team et al。

ChatGPT 和其他大型语言模型 (LLM) 的公开发布,让世界各地的开发人员开始尝试使用这些模型来增强自己系统的交互能力。然而,类似的可通用的机器人操控模型仍然很少。

加州大学伯克利分校 (UC Berkeley)、斯坦福大学和 CMU 的研究人员最近推出了 Octo,这是一种开源的机器人操控通用模型,可以让不同的机器人系统有效地操控各种物体。该模型以 在服务器 arXiv 上预先发布的文章可以为开发能够处理手动任务的机器人开辟新的途径。

Dibya Ghosh、Homer Walke、Karl Pertsch、Kevin Black 和 Oier Mees 告诉 Tech Xplore:“目前人工智能的进步很大程度上是由大型数据集和大型模型推动的。”“在机器人领域,我们最近组建了 Open X-Embodiment 数据集,这是一个汇集了来自许多研究机构的数据的大型操纵数据集。虽然这个新数据集是一个非常令人兴奋的资源,但当时还没有很多模型可以利用它。”

该研究团队近期的工作主要有两个目标。第一,开发一个可应用于各种机器人的通用机器人模型;第二,创建开源代码,以便其他研究人员将来可以构建类似的模型。

“Octo 是我们所说的‘通才’机器人模型,它是一种神经网络,可以控制许多不同类型的机器人,并使它们执行‘拿起勺子’、‘关上抽屉’、‘擦桌子’等要求,”Ghosh、Walke、Pertsch、Black 和 Mees 解释道。

“成为一名通才并研究多种机器人是关键,因为如果你看看世界各地的研究实验室,你会发现他们中的许多都使用不同的机器人,因此确保 Octo 能够被许多研究人员使用的唯一方法是支持多种机器人。”

在技​​术研发界,可应用于多个系统的高性能计算工具通常被称为基础模型。ChatGPT 就是此类模型的一个例子,它可用于为各种代理和系统配备自然语言处理 (NLP) 功能。

Ghosh、Walke、Pertsch、Black 和 Mees 表示:“我们希望建立类似的基础模型,但用于机器人控制,或者换句话说,可以控制许多机器人并使它们解决许多不同任务的模型。”

“Octo 是朝着这一目标迈出的第一步。它的训练看起来与 ChatGPT 等模型非常相似:我们整理了一个庞大而多样化的数据集,在我们的例子中是机器人数据而不是文本,并训练一个大型模型来预测机器人在当前机器人状态和任务指令下应该执行的下一步动作。”

“Octo 还可以控制多种不同类型的机器人手臂,从勉强能拿起汽水罐的小型单臂,到更大、更强大的机器人手臂,甚至双手设置,”Ghosh、Walke、Pertsch、Black 和 Mees 说道。“这种灵活性使得 Octo 更适用于世界各地机器人专家拥有的各种设置。”

研究人员在一系列初步实验中评估了他们的模型,并将其部署在加州大学伯克利分校、斯坦福大学和卡内基梅隆大学开发的九种不同的机器人系统上。Octo 成功控制了这些机器人,并允许它们完成各种操作任务,即使在训练期间没有遇到这些机器人的传感器收集的数据或其独特设计的情况下也是如此。

研究人员表示:“看到我们能够利用 Octo 模型来控制许多不同的机器人,这真的很酷。”“因为我们 发布模型,我们看到不少人尝试在自己的机器人上运行它,我们也在下一个项目中使用了为 Octo 构建的代码库。这些都是令人鼓舞的迹象,表明 Octo 确实将有助于培育下一代改进的机器人基础模型。”

对于研究人员来说,Octo 的开发只是他们实现构建机器人操控通用模型目标的一个小里程碑。在接下来的研究中,他们计划继续朝着这个目标努力,并希望其他研究所的研究小组也能开始试验他们的代码。

用于机器人物体操控的开源通用模型

Octo 模型团队的一部分,我们在模型发布前深夜进行机器人实验(从左到右:Oier Mees、Dibya Ghosh、Homer Walke、Karl Pertsch、Lawrence Chen)。Octo 是伯克利、斯坦福和卡内基梅隆大学多个研究实验室的大型团队合作成果。机器人基础模型的研究非常困难,需要花费大量时间来评估各种不同类型机器人的模型,因此需要许多人的帮助。图片来源:Team et al。

“目前,该模型很可能无法在你的机器人上直接使用,你需要收集一些你希望机器人解决的任务的例子来教给 Octo,即使这是一个像在新厨房里拿起可乐罐这样的平凡任务,”他们补充道。

“也就是说,当前模型的泛化能力仍然非常有限,我们正在研究新的模型,以进一步推动这一能力。我们还没有达到这样的程度:你可以将模型下载到你的机器人上,告诉你的机器人你想让它做什么,它十有八九会成功,但我们正在朝着这个目标努力。”

更多信息:
Dibya Ghosh 等人,Octo:开源多面手机器人政策,arXiv (2024)。 DOI:10.48550/arxiv.2405.12213

期刊信息:
论文集

© 2024 科学X网络

引用:用于机器人对象操作的开源通用模型(2024 年 6 月 10 日)于 2024 年 6 月 10 日检索自

本文件受版权保护。除出于私人学习或研究目的的合理使用外,未经书面许可不得复制任何部分。内容仅供参考。

1718029001
2024-06-10 13:50:39
#用于机器人物体操控的开源通用模型

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​