用于机器人物体操控的开源通用模型

这些是我们测试 Octo 的机器人——你可以看到,机器人手臂种类繁多,从小型到大型,从单臂到双手。Octo 能够控制所有这些机器人。图片来源:Team et al。 ChatGPT 和其他大型语言模型 (LLM) 的公开发布,让世界各地的开发人员开始尝试使用这些模型来增强自己系统的交互能力。然而,类似的可通用的机器人操控模型仍然很少。 加州大学伯克利分校 (UC Berkeley)、斯坦福大学和 CMU 的研究人员最近推出了 Octo,这是一种开源的机器人操控通用模型,可以让不同的机器人系统有效地操控各种物体。该模型以 纸 在服务器 arXiv 上预先发布的文章可以为开发能够处理手动任务的机器人开辟新的途径。 Dibya Ghosh、Homer Walke、Karl Pertsch、Kevin Black 和 Oier Mees 告诉 Tech Xplore:“目前人工智能的进步很大程度上是由大型数据集和大型模型推动的。”“在机器人领域,我们最近组建了 Open X-Embodiment 数据集,这是一个汇集了来自许多研究机构的数据的大型操纵数据集。虽然这个新数据集是一个非常令人兴奋的资源,但当时还没有很多模型可以利用它。” 该研究团队近期的工作主要有两个目标。第一,开发一个可应用于各种机器人的通用机器人模型;第二,创建开源代码,以便其他研究人员将来可以构建类似的模型。 “Octo 是我们所说的‘通才’机器人模型,它是一种神经网络,可以控制许多不同类型的机器人,并使它们执行‘拿起勺子’、‘关上抽屉’、‘擦桌子’等要求,”Ghosh、Walke、Pertsch、Black 和 Mees 解释道。 “成为一名通才并研究多种机器人是关键,因为如果你看看世界各地的研究实验室,你会发现他们中的许多都使用不同的机器人,因此确保 Octo 能够被许多研究人员使用的唯一方法是支持多种机器人。” 在技​​术研发界,可应用于多个系统的高性能计算工具通常被称为基础模型。ChatGPT 就是此类模型的一个例子,它可用于为各种代理和系统配备自然语言处理 (NLP) 功能。 Ghosh、Walke、Pertsch、Black 和 Mees 表示:“我们希望建立类似的基础模型,但用于机器人控制,或者换句话说,可以控制许多机器人并使它们解决许多不同任务的模型。” “Octo 是朝着这一目标迈出的第一步。它的训练看起来与 ChatGPT 等模型非常相似:我们整理了一个庞大而多样化的数据集,在我们的例子中是机器人数据而不是文本,并训练一个大型模型来预测机器人在当前机器人状态和任务指令下应该执行的下一步动作。” […]