Hello Robot论文解析:如何在Stretch 3移动操作机器人上规划合理动作?
GOPLA:让Stretch 3移动操作机器人真正“听懂人话、摆对位置”
在具身智能研究中,如何让机器人既理解人类语言指令,又能在复杂3D环境中安全、合理地执行物体摆放任务,一直是个核心挑战。近期,慕尼黑工业大学与苏黎世联邦理工学院联合提出的 GOPLA 框架,为此提供了高效且可扩展的解决方案,并在 Hello Robot具身智能平台上完成关键验证。
一、第一性原理:拆解“摆放”的本质
物体摆放任务的成功依赖两个维度:
- 语义合理性:符合人类常识与偏好(如“把水杯放干净区域”);
- 几何可行性:满足物理约束(如不碰撞、保持稳定)。
传统方法往往偏重其一,而 GOPLA 创新性地采用分层协同架构,实现两者统一。
二、实现路径:三层推理,从语言到动作
1、高层语义解析
利用预训练多模态大模型(MLLM),将自由文本或图文指令转化为结构化空间关系(如“在盒子左侧前方”)。
2、中层空间映射
通过轻量级 Mapper 模块,将语义关系转为3D亲和力场,指导目标区域选择。
3、底层动作规划
扩散规划器融合多目标约束与实时环境感知,生成物理可行的末端位姿。
三、科研亮点与创新价值
- 数据高效:仅需少量真人示范,结合场景图交叉变异与功能相似替换,自动生成带几何标签的合成数据;
- 强泛化能力:在真实世界多样任务中达到 70.33% 成功率,较最强基线提升超30个百分点;
- 即插即用架构:无需重新训练大模型,即可部署于现有具身平台。
四、Hello Robot具身智能平台的关键支撑作用
GOPLA 已成功部署于Hello Robot移动操作机器人Stretch 3,并在以下方面展现优势:
- 完成从单物放置到多轮桌面整理等复杂任务;
- 验证了算法在真实家庭与办公场景中的鲁棒性;
- 凸显Hello Robot作为开放研究平台的灵活性与实用性。

五、对具身智能与科研生态的长期价值
GOPLA 不仅是一项算法突破,更提供了一种高层语义 + 底层几何的通用协作范式。结合Stretch 3移动操作机器人的硬件生态,该工作显著降低了服务机器人落地的技术门槛,加速其从实验室走向真实应用场景。

一句话总结:GOPLA 让机器人不仅“听话”,更“懂事”——而 Hello Robot 正是这一智能落地的优质平台。
论文来源
标题:GOPLA: Generalizable Object Placement Learning via Synthetic Augmentation of Human Arrangement
作者:Yao Zhong, Hanzhi Chen, Simon Schaefer, Anran Zhang, Stefan Leutenegger
链接:https://arxiv.org/abs/2510.14627
