RoboBrain2.0-7B模型论文速读：一种用于跨身体形态和多智能体协作的分层具身框架

Panesle

964人浏览 · 2025-06-11 22:30:00

Panesle · 2025-06-11 22:30:00 发布

RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration

一、引言

论文开篇阐述了具身智能的黎明为工业自动化、服务机器人和智能制造等领域带来了变革，强调了多智能体协作的重要性。然而，当前机器人系统存在诸多限制，例如跨具身适应性差、任务调度效率低以及动态错误更正能力不足。端到端的视觉语言行动（VLA）模型在长期规划和任务泛化方面表现不佳，而分层的VLA模型则在跨具身兼容性和多智能体协调能力方面存在缺陷。为应对这些挑战，论文引入了RoboOS，这是一个基于大脑-小脑分层架构的开源具身系统，旨在实现从单智能体到多智能体智能的范式转变。

二、研究方法

RoboOS系统包含三个关键组件：具身大脑模型（RoboBrain）、小脑技能库和实时共享内存。RoboBrain是一个多模态大语言模型（MLLM），负责全局感知和高级决策；小脑技能库是一个模块化、即插即用的工具包，支持多种技能的无缝执行；实时共享内存则用于协调多智能体状态。通过分层信息流，RoboOS将具身大脑和小脑技能库连接起来，实现对长期任务的鲁棒规划、调度和错误更正，同时确保多智能体协作的高效性。

（一）具身大脑模型（RoboBrain）

RoboBrain作为云部署的多模态大语言模型，不仅具备单机器人规划、可操作性预测和轨迹预测的功能，还通过多阶段训练增强了多机器人任务规划、基于代理的工具调用和时空更新能力。其核心功能包括：

多机器人任务规划：利用实时共享的时空记忆，预测协作任务的工作流拓扑。
基于代理的工具调用：根据反馈进行自我纠正规划，管理代理并调用所需工具。
时空记忆更新：根据子任务执行和工具反馈动态更新共享记忆。
低级引导：在工具执行过程中预测可操作区域和轨迹，协助操作。

（二）小脑技能库

小脑技能库是一个模块化、即插即用的工具包，支持各种机器人具身（例如单臂、双臂、轮式、仿人）的低延迟操作，包括操作和导航技能。其主要方面包括：

操作类型：整合基于专家的工具（如可操作性感知抓取）和基于VLA的工具（如OpenVLA）。
导航类型：支持传统地图-定位-导航流程（如SLAM）和基于视觉语言导航（VLN）的工具。
专用技能：用于接触丰富的交互、可变形物体处理和灵巧手控制。

（三）实时共享内存

实时共享内存维护空间、时间和机器人记忆，以实现鲁棒的协调和自适应决策。其具体表现包括：

空间记忆：以动态场景图的形式表示，层次化地组织为楼层、房间和对象级节点。
时间记忆：记录任务执行历史、反馈、工具调用日志等时间数据。
机器人记忆：存储实时系统属性，如运动域约束、关节状态和电池水平。

三、实验

论文通过在餐厅、家庭和超市等多种场景下的真实世界实验验证了RoboOS的适应性和性能。实验展示了RoboOS在支持不同机器人具身（如单臂、双臂、仿人和轮式机器人）方面的能力，证明了其在跨具身协作方面的有效性。例如，在餐厅场景中，Unitree G1仿人机器人和AgileX双臂机器人协同完成“我饿了，点一个普通汉堡”的任务；在家庭场景中，Realman单臂机器人和AgileX双臂机器人协作完成“给我一个橙子和一把刀”的任务；在超市场景中，RoboBrain-1.5-OS帮助客户选择礼物，协调Realman和AgileX机器人完成礼物选择和包装任务。

四、关键结论

论文提出RoboOS是首个基于大脑-小脑分层架构的开源具身系统，实现了从单智能体系统到多智能体智能的转变。通过精心设计的三个核心组件——具身大脑模型、小脑技能库和实时共享内存，以及优化的边缘-云通信和分布式推理，RoboOS提高了整体性能和可扩展性。实验验证了RoboOS在多种场景下的适应性和性能，证明了其在跨具身协作方面的有效性，推动了具身智能领域的发展。

五、局限性

论文指出其主要在餐厅、家庭和超市三种特定环境下进行实验，未来工作应进一步探索工厂设置以及其他工业环境（如仓库、装配线和物流中心）中的应用，以更全面地展示系统的通用性和适应性。

核心技术汇总

在这里插入图片描述

技术共进，成长同行——讯飞AI开发者社区

更多推荐

论文笔记：AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models（AlphaEdit）

论文发表于人工智能顶会ICLR（基于定位和修改的模型编辑方法（针对和等）会破坏LLM中最初保存的知识，特别是在顺序编辑场景。为此，本文提出AlphaEdit：1、在将保留知识应用于参数之前，将扰动投影到保留知识的零空间上。2、从理论上证明，这种预测确保了在查询保留的知识时，编辑后的LLM的输出保持不变，从而减轻中断问题。3、对各种LLM（包括LLaMA3、GPT2XL和GPT-J）的广泛实验表明，