本文来自微信公众号: 42号电波 ,作者:yukun,编辑:James,原文标题:《不只是遥操作:1,900 美元的 EMU 外骨骼让机器人从「看着学」到「摸着学」》
长久以来,业界和学术界似乎都在证明「只要数据足够多,机器人就会变聪明」并推出许多「聪明」的机器人。
但有种问题始终没有人解答。
「为什么看过数百万次开门视频的机器人,仍然不知道门锁是否真的扣上?为什么会折衣服的机器人,却经常在插USB时失败?为什么机器人始终没学会拧螺丝?」
有一种常见解释是:用于模型训练的大规模数据中,有一类关键变量是长期隐性的——力反馈与接触状态。
2026年6月中旬,Litian Liang与Jingxi Xu为共同第一作者身份,发表了一篇论文《Universal Manipulation Exoskeleton:Learning Compliant Whole-body Policies with Real-time Torque Feedback》。
该工作由蚂蚁团队和斯坦福大学团队联合发布,同时推出了一款通用操作外骨骼(UME)——一款上肢外骨骼,该外骨骼可在遥操作过程中同时提供实时触觉力矩的反馈、并记录全臂构型与关节上的力矩信号,试图补齐「力矩」这一关键数据维度。
UME帮机器人建立「手感」
当前,工业机器人发展取得了巨大进步,它们逐渐变得精度高、速度快、刚性强。可当机器人进入家庭环境,或者其工作范围里有人,其刚性强的优势就会变成高危险性的劣势,例如当机器人在家里端汤时,若小孩不注意碰到机械臂,而机械臂保持原有的刚性姿态就可能造成烫伤。
研究者认为缺失以上主动柔顺调整的原因并不在VLA或世界模型本身,而是缺少用于模型训练的力和力矩数据。
为此,UME的核心设计原则是:让遥操作员实时直接感受机器人感知到的阻力,通过双向交互提升操作直观性;记录关节级力矩信号,可用于训练柔顺全身、双臂策略,让模型通过力矩反馈学会主动利用接触建立「手感」。
研究方法

首先,人类手臂遵循3-1-3关节结构(图中Human),包括肩关节中的前三个自由度(含屈/伸、展/收、内/外旋),肘关节中的第四个自由度(屈/伸),腕关节中的后三个自由度(含屈/伸、桡/尺偏、旋前/旋后)。
对此,UME采用同轴执行器布局(图中Exoskeleton),包含轴线交汇于人体肩关节的J1、J2、J3,人体肘关节对应的J4,轴线交汇于人体腕关节的J5、J6、J7。
接着,将UME与真实机械臂(图中Robotic Arm)都分别拆成虚拟的:3个自由度的球形肩关节、1个自由度的肘关节、3个自由度的球形腕关节,运动与触觉力矩包含的数据将在三个子结构间独立重映射,这种子结构上独立重映射是UME适配其他机械臂的关键。

值得一提的是,附录C.1公式说明了如何排除发回外骨骼的「高阶惯性力、重力、摩擦力、离心力」等干扰。这可以让UME的遥操作员感受到的物体更真实。
最后,按照与处理关节位置信息相同的方式处理力矩数据,然后将它们嵌入拼接在一起,以进一步扩展来自ResNet18骨干网络的图像嵌入,再一起输入Transformer编解码网络,输出目标关节位置,这些目标位置编码了用于确定输出力矩的关节柔顺信息。具体的用于训练机器人全身柔顺策略的基于Transformer的动作分块(ACT)算法的参数:

实验结果
此处先简单补充UMI相关事实,UMI代表了近两年兴起的人体模仿学习路线,其核心思想是让机器人直接学习人类如何完成任务,而非依赖传统机器人遥操作。相比成本较高的机器人示教系统,UMI能够更高效地获取大规模人类操作数据,但其主要记录视觉和动作轨迹,对于接触过程中的力反馈关注较少。

在UME(有无加入力矩数据)与UMI在四个任务中表现如上表所示:一方面,少量的「用于训练的演示量」和明显的成功率对比,说明了加入力矩模态会提高数据效率,提高训练表现;另一方面,UME在涉及「手感」任务的成功率明显优于UMI,说明该外骨骼能更好解决「视觉不足、接触不可避免」的边际任务。

UME的优势与挑战
UME的重要意义不仅在于推箱、取GPU等四个任务上用更少的数据训练出良好的真机效果与基线对比,还有通过触觉力矩反馈,可以提高采集效率。

如图,纵坐标DPM是每分钟演示数,带力矩反馈的UME吞吐量是无反馈版本的三倍多,接近真人速度的71%,证明力矩反馈大幅降低了操作难度,提升了采集效率。
其核心原因是UME可以不仅可以操作机械臂,机械臂的触觉数据也能通过UME让人有直观感受,可以高效采集真实数据。
不仅如此,UME还可以遥操作双臂6个自由度的X-ARM与仿真中的7个自由度的Franka臂。
事实上,文中实验重点展示了UME相较于UMI更能胜任视觉无法注意到的、涉及力接触的任务,并验证力矩数据对整体感知的重要性,但其仍面临诸多现实挑战。
首先就是成本上,如以下物料清单所示,一台UME外骨骼数据采集系统做了最极致的成本压缩,包括将关节级电机换成16个国产达妙科技的DM系列电机,而非Franka Panda等10,000美元价位的电机,还用了13美元的成本的PLA打印骨架。

但其仍需要1,900美元的成本,对比百美元价位的UMI、ALOHA、GELLO,UME在成本上并无优势。
再就是数据规模问题,UME当前的数据规模存在明显天花板。论文仅使用每条任务数十条演示进行训练——这在模仿学习类工作中属于常规量级,但若与视觉基础模型路线对比,差距直观:NVIDIA EgoScale为预训练积累了超过两万小时的视频数据,而UME的全部演示加起来不过几十小时。并且原文附录中也提到UME大概12 kg重,人体穿戴该外骨骼的舒适时间大概2个小时,这将限制了数据采集效率。
而数据规模问题,将会限制UME的泛化能力。诚然,UME也许不需要像Physical Intelligence的π0.5或英伟达的「GR00T N1.7+EgoScale」路线那样追求泛化和零样本迁移能力,但它若能从「取GPU」、「开冰箱拿饮料」中学会「装GPU」、「拧瓶盖」,那UME或许能把那些过去因为数据成本过高而被放弃的边际任务,重新纳入机器人的能力版图。
当外骨骼从山野重回实验室
综上,UME实现了三大核心能力:为遥操作人员提供机器人感知到的阻力反馈;记录全臂构型,并结合通用重映射算法,可适配多种机器人;嵌入式IMU支持移动遥操作任务。
并且,文中提到所有模型均在单块NVIDIA RTX 4090 GPU上进行了4万次梯度步数的训练,耗时8小时。为后续想复现和改进的实验室降低了门槛。

因此,UME做的事情,本质上是对一条已经跑通的商业产品线做了逆向拆解:把外骨骼从「力输出设备」重新定义为「力感知设备」。这形成了一个罕见的「产品先行、实验室后至」的创新链条。
但硬币的另一面是:消费级外骨骼的「好用」和科研级外骨骼的「好用」指向完全不同的方向。前者追求轻便、续航、助力比,后者追求力矩信号的精度、带宽、可重复性。
如果外骨骼的终极使命不止于助人登山,而是帮机器人建立「手感」,那么UME所代表的这一小步,或许比它表面看起来走得更远。它暗示了一条产业与学界互相借力的新路径——企业负责把硬件做便宜、做稳定,实验室负责在这些硬件上长出感知与智能。这不是谁先谁后的问题,而是一个正向循环的雏形:产品降低了科研的门槛,科研反过来为产品打开了新的应用空间。
当然,这一切的前提是UME能够证明,用消费级硬件采集的力矩数据确实训练得出泛化能力更强的机器人策略。
这一次,外骨骼不再只是让人走得更远,而是让机器人学得更像人。
