Hello Robot携手NYU、Berkeley发布CAP:模块化接触策略重塑机器人学习范式

当前具身智能领域常陷于一个困局:模型参数量与训练数据激增,机器人实操却依然 “笨手笨脚”。其症结在于:抽象语言指令与毫米级的物理动作间存在难以弥合的鸿沟。

近日,Hello Robot与纽约大学、UC 伯克利等顶尖机构联合提出 Contact-Anchored Policies (CAP) 操控框架。这项成果打破了传统视觉 - 语言 - 动作(VLA)局限,以较低数据成本和优秀泛化能力,为机器人学习提供了新方向。

 

 

核心突破:用 “物理接触” 取代 “语言条件”

传统大模型试图通过理解自然语言生成动作,但这难以满足精准操控的需求。CAP 的破局在于,摒弃语言条件主导,直接将策略输入降维至 “空间 3D 物理接触点(Contact Anchor)”。

机器人无需揣摩模糊语义,只需精准抵达指定坐标即可。同时,CAP 摒弃了臃肿的单体模型,采用模块化 “技能库” 设计,将复杂任务拆解为 “抓取”“开门” 等基础模块。这种解耦架构有效降低了学习门槛,让研究人员能像搭积木般组合复杂应用。

 

 

高质量真实交互数据一直是算法迭代的瓶颈。而 CAP 展现了出色的 “数据效率”—— 仅需 23 小时真实演示,即可在跨环境、跨本体的 “零样本(Zero-shot)” 测评中,超越业界先进 VLA 大模型 56%。

为加速研发,团队还开发了轻量级仿真场 EgoGym。与传统拟真仿真器不同,它专注充当 “错误放大器”,以极高运行速度和场景多样性,帮助人员在真机部署前快速暴露并修补模型缺陷。

 

 

平台赋能:Hello Robot 移动操作机器人的硬核实力

优秀算法离不开成熟的硬件支撑。本研究中,Hello Robot 移动操作机器人为 CAP 的验证提供了关键的底层支撑:

 

 

  • 稳固的参考系:CAP 需稳定获取接触点,Hello Robot Stretch3的近似笛卡尔结构与 Eye-in-hand 手眼相机,可稳定满足高精度标定要求。
  • 高频真实交互:CAP 依赖高频 “试错 - 修正”,Stretch3 移动操作机器人可穿梭于各类场景,支持原生遥操作(Teleop),允许直接进行高频部署,具备传统固定机械臂不具备的交互优势。
  • 低数据采集门槛:配合手持设备与 iPhone,研究人员可在真实场景中快速采集高质量数据,有效降低了科研门槛。

无论是在真实公寓进行零样本操控,还是跨机械臂本体迁移,搭载 CAP 算法的Hello Robot 具身智能平台均表现卓越。

 

展望未来:开源生态助力科研腾飞

CAP 的出现,标志着机器人领域正从 “更大模型” 向 “更优物理表示 + 更合适平台 + 更高效数据” 转变。在这个高度开放的Hello Robot 具身智能平台赋能下,机器人将精准执行物理操作。对于深耕具身智能的科研人员而言,这无疑是值得关注的崭新机遇!

 

素材来源

  1. Cui, Z. J., et al. "Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models." arXiv preprint arXiv:2602.09017 (2026). [Link: https://arxiv.org/pdf/2602.09017]
  2. Project Page: https://cap-policy.github.io/

 

 

文章详情

 

创建时间:2026-05-13 18:37

信倍通科技(北京)有限公司

 

ICT Tech (Beijing)Co., Ltd