当 Stretch 3 移动操作机器人进入 R2X 框架——接口开放性、生态可复现性与科研效率

多机器人协同的瓶颈,不在算法,在信息结构

做过多机器人室内实验的研究者都懂一个痛:明明每个机器人都装了不错的导航和抓取模块,但只要环境是部分可观测的(比如视线被遮挡、没地图),它们就会反复探索同一片区域,浪费大量算力和时间。

最近 CMU、丰田研究所和早稻田大学联合发布的 IndoorR2X框架,从另一个角度给出了解法——与其让机器人各自盲猜,不如把楼宇里已有的摄像头、IoT 传感器拉进来,构建一个全局语义状态,再由 LLM 做动态任务规划和重排。结果很直观:独立机器人成功率 66%,机器人间通信(R2R)升到 88%,而加上 IoT 后达到 92%,且路径长度缩短 11%、步数减少 7%、Token 消耗下降 11%。

IndoorR2X 框架

 

方法并不复杂,但方向对了

IndoorR2X 的核心是一个协调中枢,它接收移动机器人的实时位姿、目标状态,以及固定传感器的检测结果,合并成一张“谁在哪里、什么东西被拿走了”的语义地图。LLM 基于这张地图做依赖图规划,并在执行中根据新事件(比如另一台机器人提前完成了任务)自动重排。这套流程对底层平台的要求只有一个:能稳定提供状态、接受外部指令、并支持 ROS 生态的二次开发

这也解释了为什么论文真机验证选择了Hello Robot 移动操作机器人 Stretch 3 ——它的 ROS2 原生支持、Python SDK 和紧凑的 34 cm 宽度,让研究者能把精力放在上层框架,而不是花几周调试硬件接口。对学术团队来说,这种“低摩擦”特性往往比峰值负载更重要。

 

真机实验的启示:选对验证载具就是一半的功夫

 IndoorR2X 真实世界实验的示意图

 

IndoorR2X 在两个 Stretch 3机器人上跑了多轮实验,涉及三房间环境的物体搬运与放置。值得注意的是,实验中需要机器人频繁穿过标准门框、在窄走廊错车,还要配合摄像头的视野盲区做自主探索。Stretch 3 的瘦型底盘和可伸缩臂在这里不是参数优势,而是工程可行性的保障——如果你用过其他笨重的轮式平台就知道,卡在门框里重试三次是常有的事。

更深一层看,这类 R2X 研究正在推动一个趋势:未来的具身智能系统不会是孤立的单体,而是与环境传感器、其他机器人甚至智能家电联动的网络。那么,选择什么样的移动操作平台作为起点,就决定了你的实验能否低成本地接入这种生态。

 

 

目前全球已有超过 200 所高校和研究机构在使用 Hello Robot 具身智能平台,GitHub 上的开源项目覆盖了从导航、抓取到人机交互的全链路。这并非偶然——当一个平台同时具备开放的软硬件接口、活跃的社区和可复现的 benchmark 时,它就自然成了研究者默认的“基线”。Hello Robot在 IndoorR2X 中的角色,正是这种生态价值的缩影。

 

回到研究者的视角

IndoorR2X 最大的贡献不是刷了一个 92% 的数字,而是把“信息结构”这个长期被忽视的变量摆到了台面上。对于正在搭建多机协同系统的团队来说,这篇论文提供了一个可直接复现的框架思路;而如果你恰好也在评估下一阶段的验证平台,不妨留意一下:论文里用的是什么,以及为什么。

毕竟,从 sim 到 real 的路上,选对载具本身就是一个研究决策。

 

论文原文:https://arxiv.org/abs/2603.20182

项目页https://fandulu.github.io/IndoorR2X_project_page/

 

 

 

文章详情

 

创建时间:2026-06-17 15:25

信倍通科技(北京)有限公司

 

ICT Tech (Beijing)Co., Ltd