人类直觉即代码:Ego-Pi实现5分钟跨Embodiment 迁移,拓展Tesollo灵巧操作范式
摘要
斯坦福大学联合 Meta 发布的 Ego-Pi 研究,针对性解决人形机器人训练数据成本高、高自由度硬件与 VLA 模型适配难等行业痛点。该研究创新性采用第一视角人机数据联合训练方案,实验全程搭载 Tesollo DG-5F-M 五指灵巧手,凭借其高自由度与强兼容性完成核心验证。本文从技术原理、实验设计、核心创新及应用价值等维度,拆解方案亮点与 Tesollo 硬件的支撑作用,为具身智能研究提供参考。
关键词:Ego-Pi;人机协同训练;VLA 模型;Tesollo DG-5F-M;跨形态学习

1. 研究背景与核心痛点
人形机器人技术快速发展背景下,传统训练模式的短板愈发明显:
- 数据成本高昂:机器人学习新任务需大规模真机数据采集,周期长、投入大;
- 软硬件适配瓶颈:主流 VLA 模型动作输出上限仅 32 维,而 Tesollo DG-5F-M 等高自由度灵巧手需 58 维(单手 29 维)动作空间,兼容性制约研发;
- 泛化能力不足:纯机器人训练难以理解人类任务逻辑,规则类作业表现受限。
2. 整体解决路径
Ego-Pi 提出轻量化解决方案:以人类第一视角演示数据与机器人数据 1:1 联合训练,用少量人类数据补充任务语义,让机器人自主重组技能;通过工程优化突破维度限制,实现 VLA 模型与 Tesollo 灵巧手的兼容,兼顾降本、增效与泛化能力,具备良好可复现性。
3. 实验设计与 Tesollo 硬件支撑

实验流程标准化,核心设计如下:
- 数据采集:仅需 5~13 分钟人类第一视角素材,无需腕部相机,成本极低;
- 分组对照:设置纯机器人训练对照组与人机共训实验组,覆盖分拣、打包、装箱三大场景;
- 硬件选型:统一采用 Tesollo DG-5F-M 灵巧手,其 20 自由度全驱结构、250Hz 控制频率与 ROS2 生态,为高维动作算法提供稳定支撑。

4. 核心创新与硬件适配逻辑
4.1 算法创新
证实人类第一视角数据不仅优化性能,更能赋予机器人任务语义理解能力,支持未知规则作业与技能组合,无需新增机器人数据。
4.2 工程适配创新

针对 Tesollo DG-5F-M 的 58 维动作需求,采用交错令牌(Token)拆分技术,将高维动作拆分为两组令牌输出,不修改预训练模型权重即可完美适配,为同类硬件提供通用方案。
5. 实验结果与硬件价值验证

对照实验数据充分印证方案有效性:
|
测试场景 |
人机联合训练(实验组) |
纯机器人训练(对照组) |
|
番茄分拣 |
37/40 |
16/40 |
|
产品打包 |
9/10 |
1/10 |
|
箱体装箱 |
14/15 |
4/15 |
数据显示,人机协同训练成功率大幅提升,而 Tesollo DG-5F-M 的精准运动控制的稳定性,保障了实验结果的客观性。
6. 核心价值与拓展方向
6.1 多维价值
- 科研价值:构建轻量化人机训练范式,破解 VLA 模型与 Tesollo 类高维硬件适配难题;
- 硬件价值:Tesollo DG-5F-M 凭借高自由度、强兼容性、易部署特性,成为第一视角学习与 VLA 微调的主流实验硬件;
- 行业价值:前沿算法 + Tesollo 成熟硬件的组合,为研发团队简化流程、降低实践难度。
6.2 未来方向
可围绕多场景迁移、多传感器融合(适配 Tesollo 指尖触觉模块)、高维仿生算法等方向深耕,挖掘技术更多应用潜力。
结语
Ego-Pi 为人形机器人训练提供了全新思路,而 Tesollo DG-5F-M 作为实验核心硬件,其高维动作支撑与稳定性能成为成果落地的关键。期待国内科研团队以 Tesollo 灵巧手为载体,基于本方案开展联合研究,共同推动具身智能产业发展。
论文地址:https://arxiv.org/abs/2606.08107
