RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration

一、引言

论文开篇阐述了具身智能的黎明为工业自动化、服务机器人和智能制造等领域带来了变革,强调了多智能体协作的重要性。然而,当前机器人系统存在诸多限制,例如跨具身适应性差、任务调度效率低以及动态错误更正能力不足。端到端的视觉语言行动(VLA)模型在长期规划和任务泛化方面表现不佳,而分层的VLA模型则在跨具身兼容性和多智能体协调能力方面存在缺陷。为应对这些挑战,论文引入了RoboOS,这是一个基于大脑-小脑分层架构的开源具身系统,旨在实现从单智能体到多智能体智能的范式转变。

二、研究方法

RoboOS系统包含三个关键组件:具身大脑模型(RoboBrain)、小脑技能库和实时共享内存。RoboBrain是一个多模态大语言模型(MLLM),负责全局感知和高级决策;小脑技能库是一个模块化、即插即用的工具包,支持多种技能的无缝执行;实时共享内存则用于协调多智能体状态。通过分层信息流,RoboOS将具身大脑和小脑技能库连接起来,实现对长期任务的鲁棒规划、调度和错误更正,同时确保多智能体协作的高效性。

(一)具身大脑模型(RoboBrain)

RoboBrain作为云部署的多模态大语言模型,不仅具备单机器人规划、可操作性预测和轨迹预测的功能,还通过多阶段训练增强了多机器人任务规划、基于代理的工具调用和时空更新能力。其核心功能包括:

  • 多机器人任务规划:利用实时共享的时空记忆,预测协作任务的工作流拓扑。

  • 基于代理的工具调用:根据反馈进行自我纠正规划,管理代理并调用所需工具。

  • 时空记忆更新:根据子任务执行和工具反馈动态更新共享记忆。

  • 低级引导:在工具执行过程中预测可操作区域和轨迹,协助操作。

(二)小脑技能库

小脑技能库是一个模块化、即插即用的工具包,支持各种机器人具身(例如单臂、双臂、轮式、仿人)的低延迟操作,包括操作和导航技能。其主要方面包括:

  • 操作类型:整合基于专家的工具(如可操作性感知抓取)和基于VLA的工具(如OpenVLA)。

  • 导航类型:支持传统地图-定位-导航流程(如SLAM)和基于视觉语言导航(VLN)的工具。

  • 专用技能:用于接触丰富的交互、可变形物体处理和灵巧手控制。

(三)实时共享内存

实时共享内存维护空间、时间和机器人记忆,以实现鲁棒的协调和自适应决策。其具体表现包括:

  • 空间记忆:以动态场景图的形式表示,层次化地组织为楼层、房间和对象级节点。

  • 时间记忆:记录任务执行历史、反馈、工具调用日志等时间数据。

  • 机器人记忆:存储实时系统属性,如运动域约束、关节状态和电池水平。

三、实验

论文通过在餐厅、家庭和超市等多种场景下的真实世界实验验证了RoboOS的适应性和性能。实验展示了RoboOS在支持不同机器人具身(如单臂、双臂、仿人和轮式机器人)方面的能力,证明了其在跨具身协作方面的有效性。例如,在餐厅场景中,Unitree G1仿人机器人和AgileX双臂机器人协同完成“我饿了,点一个普通汉堡”的任务;在家庭场景中,Realman单臂机器人和AgileX双臂机器人协作完成“给我一个橙子和一把刀”的任务;在超市场景中,RoboBrain-1.5-OS帮助客户选择礼物,协调Realman和AgileX机器人完成礼物选择和包装任务。

四、关键结论

论文提出RoboOS是首个基于大脑-小脑分层架构的开源具身系统,实现了从单智能体系统到多智能体智能的转变。通过精心设计的三个核心组件——具身大脑模型、小脑技能库和实时共享内存,以及优化的边缘-云通信和分布式推理,RoboOS提高了整体性能和可扩展性。实验验证了RoboOS在多种场景下的适应性和性能,证明了其在跨具身协作方面的有效性,推动了具身智能领域的发展。

五、局限性

论文指出其主要在餐厅、家庭和超市三种特定环境下进行实验,未来工作应进一步探索工厂设置以及其他工业环境(如仓库、装配线和物流中心)中的应用,以更全面地展示系统的通用性和适应性。

核心技术汇总

在这里插入图片描述

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐