人类直觉即代码:Ego-Pi实现5分钟跨Embodiment 迁移，拓展Tesollo灵巧操作范式

摘要

斯坦福大学联合 Meta 发布的 Ego-Pi 研究，针对性解决人形机器人训练数据成本高、高自由度硬件与 VLA 模型适配难等行业痛点。该研究创新性采用第一视角人机数据联合训练方案，实验全程搭载 Tesollo DG-5F-M 五指灵巧手，凭借其高自由度与强兼容性完成核心验证。本文从技术原理、实验设计、核心创新及应用价值等维度，拆解方案亮点与 Tesollo 硬件的支撑作用，为具身智能研究提供参考。

关键词：Ego-Pi；人机协同训练；VLA 模型；Tesollo DG-5F-M；跨形态学习

1. 研究背景与核心痛点

人形机器人技术快速发展背景下，传统训练模式的短板愈发明显：

数据成本高昂：机器人学习新任务需大规模真机数据采集，周期长、投入大；

软硬件适配瓶颈：主流 VLA 模型动作输出上限仅 32 维，而 Tesollo DG-5F-M 等高自由度灵巧手需 58 维（单手 29 维）动作空间，兼容性制约研发；

泛化能力不足：纯机器人训练难以理解人类任务逻辑，规则类作业表现受限。

2. 整体解决路径

Ego-Pi 提出轻量化解决方案：以人类第一视角演示数据与机器人数据 1:1 联合训练，用少量人类数据补充任务语义，让机器人自主重组技能；通过工程优化突破维度限制，实现 VLA 模型与 Tesollo 灵巧手的兼容，兼顾降本、增效与泛化能力，具备良好可复现性。

3. 实验设计与 Tesollo 硬件支撑

实验流程标准化，核心设计如下：

数据采集：仅需 5~13 分钟人类第一视角素材，无需腕部相机，成本极低；

分组对照：设置纯机器人训练对照组与人机共训实验组，覆盖分拣、打包、装箱三大场景；

硬件选型：统一采用 Tesollo DG-5F-M 灵巧手，其 20 自由度全驱结构、250Hz 控制频率与 ROS2 生态，为高维动作算法提供稳定支撑。

4. 核心创新与硬件适配逻辑

4.1 算法创新

证实人类第一视角数据不仅优化性能，更能赋予机器人任务语义理解能力，支持未知规则作业与技能组合，无需新增机器人数据。

4.2 工程适配创新

针对 Tesollo DG-5F-M 的 58 维动作需求，采用交错令牌（Token）拆分技术，将高维动作拆分为两组令牌输出，不修改预训练模型权重即可完美适配，为同类硬件提供通用方案。

5. 实验结果与硬件价值验证

对照实验数据充分印证方案有效性：

测试场景	人机联合训练（实验组）	纯机器人训练（对照组）
番茄分拣	37/40	16/40
产品打包	9/10	1/10
箱体装箱	14/15	4/15

数据显示，人机协同训练成功率大幅提升，而 Tesollo DG-5F-M 的精准运动控制的稳定性，保障了实验结果的客观性。

6. 核心价值与拓展方向

6.1 多维价值

科研价值：构建轻量化人机训练范式，破解 VLA 模型与 Tesollo 类高维硬件适配难题；

硬件价值：Tesollo DG-5F-M 凭借高自由度、强兼容性、易部署特性，成为第一视角学习与 VLA 微调的主流实验硬件；

行业价值：前沿算法 + Tesollo 成熟硬件的组合，为研发团队简化流程、降低实践难度。

6.2 未来方向

可围绕多场景迁移、多传感器融合（适配 Tesollo 指尖触觉模块）、高维仿生算法等方向深耕，挖掘技术更多应用潜力。

结语

Ego-Pi 为人形机器人训练提供了全新思路，而 Tesollo DG-5F-M 作为实验核心硬件，其高维动作支撑与稳定性能成为成果落地的关键。期待国内科研团队以 Tesollo 灵巧手为载体，基于本方案开展联合研究，共同推动具身智能产业发展。

论文地址：https://arxiv.org/abs/2606.08107

文章详情

创建时间：2026-06-15 10:54

ꄴ前一个：无

ꄲ后一个：无

信倍通科技（北京）有限公司

ICT Tech (Beijing）Co., Ltd

넳 넲

去首页看看

联系我们

信倍通科技（北京）有限公司是领先的前沿科技和产品引进、整合、推广、集成和服务商，基于全球丰富的供应商资源，立足国内应用场景和市场，贯通国内外先进技术经验和多样需求，为中国客户提供智能安全的协作机器人和机器人协作应用方案、精准独特的测量检测设备、丰富精密的感知传感产品、强壮有效的外骨骼及高速低时延大通量的5G芯片等产品。

扫一扫关注官方微信公众号

- 电话
- 010-62360234
- 邮箱
- wl@cnbytool.com
뀩
- QQ客服
- 服务时间
- 周一至周五 9:30-18:30
- 微信公众号