Hello Robot携手NYU、Berkeley发布CAP:模块化接触策略重塑机器人学习范式
当前具身智能领域常陷于一个困局:模型参数量与训练数据激增,机器人实操却依然 “笨手笨脚”。其症结在于:抽象语言指令与毫米级的物理动作间存在难以弥合的鸿沟。
近日,Hello Robot与纽约大学、UC 伯克利等顶尖机构联合提出 Contact-Anchored Policies (CAP) 操控框架。这项成果打破了传统视觉 - 语言 - 动作(VLA)局限,以较低数据成本和优秀泛化能力,为机器人学习提供了新方向。

核心突破:用 “物理接触” 取代 “语言条件”
传统大模型试图通过理解自然语言生成动作,但这难以满足精准操控的需求。CAP 的破局在于,摒弃语言条件主导,直接将策略输入降维至 “空间 3D 物理接触点(Contact Anchor)”。
机器人无需揣摩模糊语义,只需精准抵达指定坐标即可。同时,CAP 摒弃了臃肿的单体模型,采用模块化 “技能库” 设计,将复杂任务拆解为 “抓取”“开门” 等基础模块。这种解耦架构有效降低了学习门槛,让研究人员能像搭积木般组合复杂应用。

高质量真实交互数据一直是算法迭代的瓶颈。而 CAP 展现了出色的 “数据效率”—— 仅需 23 小时真实演示,即可在跨环境、跨本体的 “零样本(Zero-shot)” 测评中,超越业界先进 VLA 大模型 56%。
为加速研发,团队还开发了轻量级仿真场 EgoGym。与传统拟真仿真器不同,它专注充当 “错误放大器”,以极高运行速度和场景多样性,帮助人员在真机部署前快速暴露并修补模型缺陷。

平台赋能:Hello Robot 移动操作机器人的硬核实力
优秀算法离不开成熟的硬件支撑。本研究中,Hello Robot 移动操作机器人为 CAP 的验证提供了关键的底层支撑:

- 稳固的参考系:CAP 需稳定获取接触点,Hello Robot Stretch3的近似笛卡尔结构与 Eye-in-hand 手眼相机,可稳定满足高精度标定要求。
- 高频真实交互:CAP 依赖高频 “试错 - 修正”,Stretch3 移动操作机器人可穿梭于各类场景,支持原生遥操作(Teleop),允许直接进行高频部署,具备传统固定机械臂不具备的交互优势。
- 低数据采集门槛:配合手持设备与 iPhone,研究人员可在真实场景中快速采集高质量数据,有效降低了科研门槛。
无论是在真实公寓进行零样本操控,还是跨机械臂本体迁移,搭载 CAP 算法的Hello Robot 具身智能平台均表现卓越。
展望未来:开源生态助力科研腾飞
CAP 的出现,标志着机器人领域正从 “更大模型” 向 “更优物理表示 + 更合适平台 + 更高效数据” 转变。在这个高度开放的Hello Robot 具身智能平台赋能下,机器人将精准执行物理操作。对于深耕具身智能的科研人员而言,这无疑是值得关注的崭新机遇!
素材来源
- Cui, Z. J., et al. "Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models." arXiv preprint arXiv:2602.09017 (2026). [Link: https://arxiv.org/pdf/2602.09017]
- Project Page: https://cap-policy.github.io/
