Hello Robot论文解析:如何在Stretch 3移动操作机器人上规划合理动作?

GOPLA:让Stretch 3移动操作机器人真正“听懂人话、摆对位置”

在具身智能研究中,如何让机器人既理解人类语言指令,又能在复杂3D环境中安全、合理地执行物体摆放任务,一直是个核心挑战。近期,慕尼黑工业大学与苏黎世联邦理工学院联合提出的 GOPLA 框架,为此提供了高效且可扩展的解决方案,并在 Hello Robot具身智能平台上完成关键验证。

 

Fig. 1: GOPLA系统能够根据人类偏好和3D空间约束,实现泛化性的物体放置.

 

一、第一性原理:拆解“摆放”的本质

物体摆放任务的成功依赖两个维度:

  • 语义合理性:符合人类常识与偏好(如“把水杯放干净区域”);
  • 几何可行性:满足物理约束(如不碰撞、保持稳定)。

传统方法往往偏重其一,而 GOPLA 创新性地采用分层协同架构,实现两者统一。

 

二、实现路径:三层推理,从语言到动作

1、高层语义解析
利用预训练多模态大模型(MLLM),将自由文本或图文指令转化为结构化空间关系(如“在盒子左侧前方”)。

2、中层空间映射
通过轻量级 Mapper 模块,将语义关系转为3D亲和力场,指导目标区域选择。

3、底层动作规划
扩散规划器融合多目标约束与实时环境感知,生成物理可行的末端位姿。

Fig. 2: GOPLA的分层模型概览。其工作流程从理解指令开始,最终生成满足语义和物理约束的放置位姿.

 

三、科研亮点与创新价值

  • 数据高效:仅需少量真人示范,结合场景图交叉变异与功能相似替换,自动生成带几何标签的合成数据;
  • 强泛化能力:在真实世界多样任务中达到 70.33% 成功率,较最强基线提升超30个百分点;
  • 即插即用架构:无需重新训练大模型,即可部署于现有具身平台。
Fig. 4: GOPLA与基线方法的预测效果对比——不仅能捕捉指令施加的偏好,还能尊重空间约束

 

四、Hello Robot具身智能平台的关键支撑作用

GOPLA 已成功部署于Hello Robot移动操作机器人Stretch 3,并在以下方面展现优势:

  • 完成从单物放置到多轮桌面整理等复杂任务;
  • 验证了算法在真实家庭与办公场景中的鲁棒性;
  • 凸显Hello Robot作为开放研究平台的灵活性与实用性。

 

五、对具身智能与科研生态的长期价值

GOPLA 不仅是一项算法突破,更提供了一种高层语义 + 底层几何的通用协作范式。结合Stretch 3移动操作机器人的硬件生态,该工作显著降低了服务机器人落地的技术门槛,加速其从实验室走向真实应用场景。

 

一句话总结:GOPLA 让机器人不仅“听话”,更“懂事”——而 Hello Robot 正是这一智能落地的优质平台。

 

论文来源

标题:GOPLA: Generalizable Object Placement Learning via Synthetic Augmentation of Human Arrangement

作者:Yao Zhong, Hanzhi Chen, Simon Schaefer, Anran Zhang, Stefan Leutenegger

链接https://arxiv.org/abs/2510.14627

 

文章详情

 

创建时间:2026-01-30 20:21

信倍通科技(北京)有限公司

 

ICT Tech (Beijing)Co., Ltd