机器人领域受数据荒漠制约具身智能发展，本文拆解四层机器人数据金字塔结构，梳理行业不同路线，探讨数据飞轮与具身智能未来。 ## 1. 机器人深陷数据荒漠：缺口远超想象大语言模型等AI可直接使用互联网海量公开数据，GPT-4训练数据量达万亿token级。机器人需要的是真实物理世界交互中，多传感器信号精确时间戳对齐的操作轨迹数据，这类数据不会被动产生，必须从零开始人工生产。全球最大跨机构开源真机数据集Open X-Embodiment，仅含超100万条操作轨迹、覆盖527项技能，和现实需求仍存在数量级差距。谷歌研发RT-1时，13台机器人采集17个月仅积累约13万条操作轨迹。 ## 2. 第一层：顶层准确但昂贵的真机遥操数据真机遥操数据是顶层高质量数据，由采集员控制机器人在真实场景操作、全程录制传感器信号，是当前机器人落地的核心原材料。智元在上海建有大规模数采工厂，200台机器人配对应采集员，金牌采集员需1个月从零基础练成，专业遥操员8小时仅产出2-3小时有效数据。真机数据优势是精度高、调参落地成本低，但成本高、扩张慢；智元觅蜂今年真机产能达200万小时，2026年规划近200万小时真机产能、800万小时Human-Centric数据，已做成一站式物理AI数据服务平台，是机器人行业的“数据石油”基础设施。 ## 3. 第二层：规模极致的仿真合成数据仿真合成数据是在虚拟环境生成的机器人训练数据，单GPU可并行运行成千上万个虚拟机器人，规模可无限扩张，还能低成本生成边缘场景失败数据。Sharpa的乒乓球机器人仅用40小时纯仿真训练就获得0.2秒级击球反应，和英伟达合作开发的Tacmap还实现了仿真触觉数据突破。该路线核心缺陷是存在**仿真到现实的鸿沟**：仿真仅能近似物理世界，动力学层面（接触力传递、软性形变、液体流动等）难以精确建模，放到真实世界容易出错；当前解决方案包括域随机化、优化仿真精度、少量真机微调，仍需科学方法创新。同时还存在“从现实到仿真的鸿沟”，难以将复杂真实世界精准复刻进虚拟环境。 ## 4. 第三层：高运动质量的动作捕捉数据动作捕捉数据通过光学设备追踪人手运动轨迹，再映射到机器人，数据运动质量高，能大幅减少无效数据，机器人跳舞、武术等复杂动作多依赖这类数据，Physical Intelligence的π0系列也大量使用该数据。其核心劣势是存在**具身鸿沟**：人和机器人身体结构不同，既存在视觉和状态偏差，人手的触觉反馈调节能力机器人不具备，仅能做运动学对应，无法实现操作语义匹配，还存在功能重定向问题，因此被归为低质量数据。 ## 5. 第四层：海量低成本的互联网视频数据互联网视频是金字塔最底层，是当前唯一不缺的机器人训练原材料，但仅能帮机器人学习通用表征与基础物理认知，相当于看比赛学不会打球，缺乏力触觉与动作信号，质量最低。对机器人最有价值的两类视频是：第一人称视角的Egocentric数据（匹配机器人视角，苹果开源829小时EgoDex数据集、觅蜂推出MEgo系列轻量化采集方案），以及学习人类行为意图的Human-Centric数据，二者结合的“人类第一视角完成任务”数据价值最高。互联网视频虽质量低，但胜在海量低成本，特斯拉、Figure AI等都在押注该路线，Sharpa的CraftNet通过底层触觉反射层补偿，可实现“点石成金”，让低质量视频数据也能用于训练精细操作。 ## 6. 行业通用方案：混合配比使用四层数据目前行业没有统一黄金配比，需根据目标适配：特定工业场景追求极致精度效率，会提高真机数据占比；追求泛化性的通用场景，会增加低质量数据占比，核心逻辑是用万分之一的高质量真机数据，决定模型最终落地效果。 Sharpa估算复杂任务中，遥操作数据:动作捕捉数据:互联网视频的轨迹数量比约为1:100:10000，遥操占比仅万分之一，但**数据质量比数量更重要，高质量数据是落地的核心**。 ## 7. 差异化路线：硅谷的“数据捷径” 中国公司多选择大规模真机数采工厂路线，依托人力成本效率打造护城河，硅谷公司多选择降低对遥操依赖、走被动规模化的捷径路线： - Physical Intelligence走真实部署强化学习自我进化路线，让机器人在真实场景试错产生数据自我提升，但目前仍存在奖励函数难定义、试错有真实成本、数据归属模糊三大问题。 - Figure AI和全球商业地产巨头Brookfield合作，在真实空间采集人类视频训练模型，目标打造全球最大多样化人形预训练数据集。 - Sunday Robotics走众包路线，直接付费请普通人在家录制做家务视频训练机器人。 ## 8. 种树人开路：未来的核心是数据飞轮智元2024年开源百万条遥操数据做成AgiBot World数据集，解决了行业没有公共基准数据集的问题，被称为数据荒漠的“种树人”；英伟达GROOT N1的80%真实训练数据就来自该数据集，开源已经形成正向生态。行业普遍认同机器人一定会形成数据飞轮：模型部署后，在用户许可下采集失败等高价值数据回流训练，持续提升能力，逻辑和大语言模型Scaling Law一致，目前智元已标配该机制，回流高价值数据占比约5%以内。目前行业仍待验证核心问题：**具身智能的Scaling Law是否成立**，当前仅实现物体与环境泛化，尚未实现任务级泛化，只有机器人大规模部署后才会得到答案；一旦万量级机器人落地，数据量将迎来指数级增长，答案终将浮现。

2026-05-16 11:54

走进数采工厂：深聊机器人数据荒漠、四层金字塔与种树人

硅谷101

本文来自微信公众号：硅谷101 ，作者：硅谷101

当Scaling Law让大语言模型一路狂飙，用万亿参数涌现一代又一代更强大的智能之际，机器人领域却被数据荒漠所困，让具身智能的泛化性和自主性进展迟缓。

为什么AI能用的数据，机器人用不了？机器人的四层数据金字塔是如何运作的？每一层的进展和技术困境分别是什么，以及，我们如何才能解决机器人的数据难题呢？

这篇文章继续我们的“机器人专辑”，之前我们已经讲过了灵巧手、机器人闭源模型和开源模型，这一期我们来聊聊这个领域一个非常核心的部分：数据。

为此，我们飞到上海，走进了机器人数采工厂，甚至有机会亲自尝试了一下“遥操作采集员”这份工作。除此之外，我们也跟智元、Sharpa等机器人公司们一起深入聊了聊，当前机器人数据的技术路线以及未来发展。

（本文为视频改写，欢迎大家收看以下视频）

01 稀缺的机器人数据

真实缺口有多大？

首先我们来回答一个问题：什么是机器人数据？它跟AI大语言模型，以及图片和视频模型的数据有什么不同呢？

大语言模型是靠“吃掉互联网”变聪明的。GPT-4的训练数据量以万亿token计，相当于把人类有记录的知识积累全部摄入。

简单来说，AI生文、生图以及生声音、生视频的模型参数都可以在互联网上找到。大语言模型用的是“世界的文本语言”，包括文本、代码以及标注过的结构化文本，来帮助AI理解和生成“语言序列”。类似的，图像模型用的是“世界的瞬间截图”，声音模型用的是“世界的震动信号”，而视频模型用的是“世界的连续变化”，而这些数据，都大量存在互联网上。

而机器人需要的数据是具身本体在真实物理世界里，和具体物体发生具体交互时产生的多维度传感器信号：视觉、力觉、关节位置、电机控制量，全部精确同步，时间戳对齐，才构成一条有用的训练轨迹。

这些信息从来没有被系统性地记录过，也没有任何理由会被被动产生。

姚卯青

智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO

机器人完整的数据，包括各种传感器所带来的数据，有视频，还有力触觉传感器等。它的输出是对身体上每一个电机关节的控制量，能够控制全身多达几十个自由度的关节协调配合，去完成具体的任务。

它的难点就在于这些数据天然是不存在互联网上的，它需要我们以某种方式去采集，无论是在真实环境里采集，还是在虚拟世界里采集，都需要先布设机器人、搭建场景，再引入遥操人员来控制机器人采集这类数据。

张凯峰
Sharpa研究科学家、学术负责人

我觉得数据最大的难点在于我们没有办法采集到机器人自己在干活的数据，我们能采集到的其实是人在操作的数据，比如动作捕捉（MOCAP data），比如YouTube数据。所以要做好teleoperation（遥操）、让机器人自己去操作其实比较困难，主要原因是机器操作员是感受不到机器人的感受。

这就是整个行业数据困境的根源：每一条高质量数据都必须从零开始生产。我们来用几个数字，试图展示一下这个缺口有多大。

谷歌DeepMind在研发机器人模型RT系列第一代时，调动了13台机器人，在办公室厨房环境里持续采集了整整17个月，才积累了约13万条操作轨迹、覆盖700多项技能。

为了训练RT-2，谷歌联合了全球34所研究机构，把60个已有数据集全部合并，加上来自22种机器人平台的真机数据，才凑出了Open X-Embodiment，一个包含超过100万条操作轨迹的开源数据集。

这已经被认为是目前全球最大的跨机构真机数据集，但即便如此，它涵盖的527项技能和对应的场景，和现实世界的需求之间，依然是以数量级计的差距。

面对如此难获得的机器人数据，怎么办呢？如今，行业摸索出了四条并行路线。它们的质量从低到高排列，构成一个金字塔，每一层都有自己的优势、上限和真实代价，接下来我们来一层一层给大家拆解。

02 数据金字塔顶层

准确但昂贵的真机数据

金字塔的顶层，就是遥操数据，又被称为“真机数据”。操作员通过外骨骼或遥操系统，实时控制机器人在真实场景里完成操作，机器人所有传感器全程录制。这层数据信息最完整，真实的物理接触、真实的不确定性、真实的失败和恢复，是今天让机器人真正能在现实场景落地的核心原材料。

我们也正好有机会来到上海，走进智元机器人的数据采集工厂，看看真机数据是怎么采集的。

姚卯青

智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO

我们这里有200台机器，每台机器至少配一个采集员，有些任务还会配备一位同事来搭配布置场景。

但你以为遥操员是一个很简单的工作吗？答案是：并不是。反正我们在现场试了一下，发现这个工作还是很有门槛的。

陈茜
硅谷101联合创始人

一个数据采集员，他需要什么样的资质才能把这个数据采集好呢？

姚卯青

智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO

我觉得最重要的是天赋，好的数据采集员和差的数据采集员，效率可能相差3倍。我认为一个有天赋的数据采集员，首先是协调性非常好、空间感特别强的人。因为在采集数据的过程中，其实是在隔空控制另外一个身体，没有直观的触觉反馈，只能通过肉眼来闭环。机器人手臂和人手臂的构型也不一样，人能达到的很多姿态，机器人未必能够到，所以还要预判机器人怎样才能更高效地够到目标，再去设计自己的动作轨迹。其次是对空间的精度判断要很准，如果空间感差，明明想让机器人去抓，结果抓过了，或够不到，或一夹就滑，这种情况都非常常见。还有就是体力要好，一天下来其实非常辛苦。

智元机器人采集员

有些人是站着采的，有些人坐着采，两种感觉不一样。

陈茜

硅谷101联合创始人

从刚入门的一个采集员到你这样的金牌采集员需要多长时间？

智元机器人采集员

入职需要一周培训时间，培训完先入门，之后任务难度逐级递加。

姚卯青

智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO

即使是有天赋的采集员，从零基础到九成功力，大概也要一个月。Zero to hero（从平凡到英雄），要一个月吧。

对于一个专业的金牌数据采集员来说，我刚才失败了N次的机器人摆放字母的任务，他一次就搞定了，而这样的数据采集，为的就是机器人的精确控制能力。但就算是专家水平的遥操员，也不是每一条都可以被算作是有效数据的。

陈茜

硅谷101联合创始人

人类遥操数据的成功率是多少？任务难易程度不一样可能也会影响，我很好奇这个效率怎么算？

姚卯青

智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO

一个专业遥操员，8小时工作大概能平均产出2到3小时的有效数据。因为中间必然会涉及两个采集之间的场景布置、数据上传，以及操作失败后的丢弃和重试。

陈茜

硅谷101联合创始人

所以就大概1/4。

所以，真机数据的优势是准确，更容易直接部署、后期调参成本也更低，但它的代价也非常直白：贵，并且慢，不容易指数级扩张。

数采工厂涉及到硬件成本、场地成本、人工标注和监督成本，以及时间成本，与互联网数据相比，规模完全不是一个量级。

智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO

我们今年真机产能有200万小时，对应着接近2000台机器人和背后规模相当的采集员团队。

陈茜

硅谷101联合创始人

这个规模会越来越大吗？

姚卯青

智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO

真机今年差不多稳定在这个水平，当然也会根据市场的动态需求相应扩产。

不可否认，人力成本我相信一定会是将来竞争力和效率里非常重要的一环。这也是为什么中国发展起了大量的数据采集，而美国相对进展比较缓慢，此前特斯拉招聘采集员的薪酬就是50美元一小时。如果是100万小时，今天放在全球就一定是碾压式的存在了。

陈茜

硅谷101联合创始人

但100万小时就能解决问题了吗？

姚卯青

智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO

我觉得在一些特定领域100万小时应该可以达到非常好的效果了。今年我们接触了很多有数据需求的客户，作为觅蜂的话，我们也在看很多客户的需求，提出100万小时需求的单个客户已经非常多了。这只是第一步，大家到了100万一定会想1000万。但即使是1亿小时，对于大型人工智能公司每年的基础设施投入来讲，也还是一个非常可控的部分。

顺便说一句，智元正在将真机数据做成一站式的物理AI数据服务平台，想要解决的就是当前机器人行业面临的真机交互数据荒漠的问题。

觅蜂科技，押注的是构建物理AI数据基础设施，实现真机遥操、无本体采集、仿真数据全范式覆盖，并打通硬件、软件、平台、运营的全链路。觅蜂科技2026年真机遥操产能接近200万小时，同时规划采集约800万小时的Human-Centric数据，背后是将近2000台机器人和对应规模的采集团队，在中国国内以及东南亚多地同步运作。可以看到，这就是机器人行业中的“石油业务”，而数据生态正在迅速崛起，并且需求量非常大。

03 金字塔第二层

仿真合成数据

金字塔从上往下的第二层，就是“仿真合成数据”这条规模效应最极致的路线，这也是黄仁勋的英伟达重点押注的路线。

顺便说个小八卦，听说黄仁勋的一儿一女都在英伟达的Physical AI仿真部门，可见老黄对这一块有多看重。

简单来说，这不是从真实世界采集，而是在虚拟环境里“生成出来”的数据。与一条一条训出来的真机数据做个对比：英伟达Isaac Lab可以在单台GPU上并行运行成千上万个虚拟机器人同时训练。规模可以是无限的，你想要多少数据，就有多少数据。

比如说，机器人公司Sharpa在2026年CES上超火出圈的乒乓球机器人，就是花了40个小时用纯仿真数据训练出了0.2秒量级的击球反应速度，这就是这条路线的一个具体案例。

仿真还能做一件真机采集做不到的事：生成现实中极难遇到的边缘场景。机器人在仿真里可以反复摔倒、反复失败，所有失败都成为数据，而不造成任何真实损失。

此外，Sharpa的研究科学家还告诉我们，仿真技术让“触觉”这种真机更难采集的数据有了新的突破。

张凯峰

Sharpa研究科学家、学术负责人

我们最近跟英伟达合作了一个触觉仿真工具叫Tacmap，它做了这样一件事：对于传统视触觉而言，你需要在simulation（仿真）里建模视触觉指尖，但你没办法在simulation（仿真）里安装摄像头去观察marker（标记）点的形变。所以我们提出了Tacmap。

它用物体与指尖穿膜的深度图作为介质，在仿真里可以高效获取这个deformation map（形变图），并且具有良好的物理特性。在现实环境中，我们也通过类似方式获取deformation map（形变图），通过大量数据采集训练了一个翻译模型叫translation model，将raw image（原始图像）翻译成deformation map（形变图）。基于这个deformation map（形变图），我们实现了一些技能的Sim-to-Real（从仿真到现实），能够完成一些精细化操作。

当然，这个路线有一个巨大的漏洞，就是嘉宾刚才提到的Sim-to-Real Gap，字面意思是“仿真到现实的鸿沟”。问题的本质是：机器人在虚拟环境里练得再好，放到真实世界里往往会出问题。为什么会这样呢？

因为仿真环境是人用代码构建的物理世界的近似，但真实世界的物理复杂得多。

举一个最简单的例子：机器人在仿真里学会了抓一个塑料杯子，仿真里这个杯子的重量、摩擦系数、形变方式都是固定的参数。但真实世界里，湿手拿杯子和干手拿杯子的摩擦系数不一样，杯子里有没有水重量也不一样，光滑桌面和粗糙桌面上的杯子滑动方式不一样。这些细节，仿真里要么没建模，要么建模不够精确。

总的来说，运动学层面的问题，包括关节怎么弯、手臂走什么轨迹，相对容易在仿真里做好，放到真机上效果也还行。但真正难的是动力学层面，比如物体之间接触时力怎么传递、软性材料怎么形变、液体怎么流动。这些现象对今天的物理引擎来说还很难完整复现。

结果就是：机器人在仿真里练了一万次叠衣服，放到真实的毛衣面前，因为布料的柔软程度和仿真里的参数对不上，动作就会出错。这不是模型不够聪明，是它从来没有经历过真实的物理接触。

目前，行业中的解决办法包括：域随机化（不去做一个“完美仿真”，而是做“很多不一样的仿真”，逼模型学会忽略差异、抓住本质），还有把仿真做得更好更真（这也是英伟达主要在做的事情），以及用少量的真机数据去微调。但张凯峰认为，最终还需要一个更创新的解决之道。

张凯峰

Sharpa研究科学家、学术负责人

现在很难解决的一个动力学的Sim-to-Real Gap（从仿真到现实的鸿沟）是环境的dynamics（动力学），也就是说你很难对齐这个物理世界的环境和现实世界的环境的迁移，也就是我们所说的transition model（状态转移模型），所以这是我觉得是目前还需要一些科学方法上的创新。

除了Sim-to-real，Real-to-sim Gap（从现实到仿真的鸿沟）也是目前行业中的核心挑战，这个词和Sim-to-real是反过来的，意思是你没办法把真实世界准确“搬进”仿真里。

因为现实世界太复杂了，咱们的真实环境中有无限的细节、噪音和不规则的事件，还有很多难以观测的参数。所以仿真世界，其实没有那么好建。

金字塔第三层

动捕数据

我们继续往机器人的数据金字塔下面走，到第三层，动作捕捉数据。动作捕捉数据集，被称为MOCAP。这个派系是用光学设备或视觉算法追踪人手的运动轨迹，比纯视频多了“怎么动”的信息维度。

动捕数据的本质是记录“人是怎么动的”，然后再把这个动作“映射”到机器人上。比如说，机器人算法公司Physical Intelligence的π0系列就大量使用了这类数据。π0.5在大约400小时移动操作数据和大规模网络数据的基础上，实现了在真实家庭环境里完成长程任务的能力。

它的优点是：数据质量高，尤其在运动结构上，能大幅减少无效数据，对复杂动作特别有效。大家看到的很酷炫的很多机器人跳舞，武术等等任务都是用到了动作捕捉的数据收集，这是纯强化学习很难达到的效果。

但这个路线除了成本贵和数据覆盖有限之外，还有一个很关键的劣势就是：人毕竟和机器人的结构不一样，这就是Embodiment Gap（具身鸿沟）。

张凯峰

Sharpa研究科学家、学术负责人

一方面，视觉上看到的是人的手，而不是机器人的手，所以存在视觉上的gap（差异）。第二个问题是state（状态）上的gap（差异），通过动捕或其他方式得到的state（状态）其实不够准确，会有自遮挡的问题，也会有被物体遮挡的问题，所以得到的动作也是不准确的。

Embodiment Gap的意思是，人的身体和机器人的身体之间，有一道操作语义上的沟壑。人手在操作时依赖皮肤上密布的触觉感受器，每抓一个物体，神经系统都在实时根据触觉反馈调整力度。机器人没有这套系统，所以即使动作轨迹被精确复制，完成任务的能力也不会自动跟上。

除了Embodiment Gap，还有另外一个没有克服的难题，叫做Functional Retargeting。它的意思是，机器人只是在模仿动作的形状，而不是理解这个动作要完成什么。

张凯峰

Sharpa研究科学家、学术负责人

这意味着你把人的动作映射到机器人动作上之后，它只是做了运动学层面的对应，并没有真正实现操作本身在语义上的对应。

也就是说，动捕数据会出现比如说关节角度超限、力矩不够、平衡失败等问题，这就让这个层级的数据在一定程度上，和第四层的视频数据一起，被认为是“低质量数据”。

05 金字塔最底层

互联网视频

从YouTube到抖音，人类完成各种任务的视频海量存在。这是今天具身智能训练里唯一真正“不缺”的原材料。但它能教会机器人什么？

姚卯青

智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO

更多是让机器人的大脑模型学习一种通用的表征，比如简单认知以及对物理规律有粗浅的认知，但它还只停留在认知阶段。

姚卯青用了一个有趣的比喻：看再多别人打乒乓球的比赛视频，你第一天拿起球拍，也接不住球。视频给机器人建立了关于物理世界的基础认知，知道乒乓球是什么形状，知道打球大概是什么动作，但从“知道”到“会做”之间，隔着一道鸿沟。视频里根本没有动作信号，只有结果。

互联网上的海量视频数据，也被Sharpa称之为最低质量的数据。

张凯峰

Sharpa研究科学家、学术负责人

YouTube videos最大的劣势是它没有力和触觉信息，优势是量非常大，能给我们提供一些有用的信息：一是世界是怎么变化的，比如我们常常讲World Models（世界模型），就是利用这类in the wild（自然场景下）的数据来训练World Models（世界模型）；二是能给我们一些操作信息，比如affordance（预设用途）是什么，这对操作来讲也非常关键。

再进一步聊视频作为机器人数据之前，我们引入两个关键的概念，分别是Egocentric和Human-Centric。这两个分类是视频数据中被认为对机器人最有用的数据。

Egocentric的意思是“自我中心数据”，也就是“以机器人的视角看出去”，看到桌子、杯子、自己的机械臂、甚至还有遮挡、接触和动态变化这样和行动绑定的“第一视角视频”，并能直接用于决策的数据，被称为Egocentric。

为什么这个视角很重要呢，是因为机器人从摄像头，特别是人形机器人，看到的视角就是这样的。

苹果在2025年5月发布了一个Egocentric的数据集名为EgoDex：用Apple Vision Pro采集了829小时第一人称视角视频，每一帧都配有手部每个关节的精确3D追踪数据，覆盖系鞋带、折叠衣物等194种桌面操作任务，数据集完全开源，希望推动机器人灵巧操作研究。

最近，我们刚才提到的觅蜂科技也推出了MEgo系列无本体数据采集设备MEgo Gripper和MEgo View，搭配MEgo Engine一站式数据治理服务平台，试图降低物理AI数据采集对实体机器人本体的依赖，让高质量的第一视角数据走向轻量化、规模化和全场景化。

另外一个词，Human-Centric数据的意思是围绕“人类行为、意图、偏好或示范”来构建，用来让机器人学习人类想要的行为方式。比如说人类抓杯子，人类开门，人类折叠衣服这类“人直接做给机器人看”的视频能让具身智能理解“人想达到什么目标”，以及人类标准中的“正确做法”。而Human-Centric数据可以是第一视角，也可以是第三视角。

我们总结一下，Egocentric是第一人称视角视频，但任务不一定和人相关。而Human-Centric是人类意图的视频。这两者相交集的区域就是Egocentric+Human-Centric，指的是“人类在第一视角下完成任务的数据”，这被视为是视频数据里，最有价值的部分。

比如说，英伟达在今年3月推出的EgoScale，就使用超过20000小时的人类视频进行预训练，涵盖数千个独特的任务和环境。精确的骨骼手部追踪使模型能够提取并重新定位21个人体运动关键点，从而构建统一的机器人动作空间。

所以，虽然YouTube data被机器人专家们各种嫌弃，但因为它的海量存在和低成本效应，如果某家公司通过某种技术突破让这些互联网视频变得“更可用”、能大幅提升机器人表现，那将有巨大的前景，而这也正是目前各大公司押注的重点。

特斯拉在2025年6月做了一次重要的策略调整：把此前依赖动作捕捉套装和VR头显的采集方式，换成了摄像机头盔，让工人戴着装有5个摄像头的装备录制日常操作视频，再用这些视频训练Optimus，公司内部表示这样能“更快规模化”。

顺便说一句，自动驾驶就是Egocentric的数据，而且FSD也是用视频数据驱动汽车这个物理本体的案例，所以Optimus会在视频数据路线上再次押注，这也非常符合马斯克的第一性原理。

而同时，初创公司们也在如何将“低质量数据”变得更可用这个路线上，也有着非常积极的尝试。

在今年年初，Sharpa发布CraftNet，他们用一套触觉反射层（System 0）做补偿：机器人上层策略只需给出粗糙的动作意图，底层触觉感知系统根据实时力反馈自动完成精细调整。这个设计从硬件层降低了对上层数据精度的要求，使低质量动作捕捉和视频数据也可以被利用起来。

张凯峰
Sharpa研究科学家、学术负责人张凯峰

因为有了System 0，所以我们可以达到一个点石成金的效果，能够把大量的低质量数据用起来。System 1只需要给出粗糙的动作意图和手势，就能够实现fine manipulation（精细操作）的能力。

说完了机器人数据的四层金字塔结构，各自的优劣势以及各层级正在发生的进展，就会发现鱼与熊掌不可兼得的真理，真的是有道理的。最精确最高质量的真机数据是最少最难获取的，而最容易获取的视频数据又是质量最低最不可用的数据。

所以，行业现在的做法是：把他们混合起来用，能不能又平衡数据质量，又能平衡一下成本呢？那么这个混合的配方又是如何的呢？

06 各家公司的混搭配方

数据与成本如何取舍？

我们在业界跟很多机器人公司聊，目前普遍的共识是，这个四层金字塔代表着数据的不同来源，并且也要适配不同的具身本体和模型，没有一个统一标准，每个公司会有自己的配方和天平。

陈茜

硅谷101联合创始人

它到最后可能是一个整合的solution（解决方案）？它们各自的比例大概是什么样子？

姚卯青

智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO

对，它会是一个整合的solution（解决方案）。现在很难说什么样的比例是黄金配方，因为这不是一个简单配比然后达成单一目标的问题。首先在技术路线上还有很多路径在探索，并没有归一到一种确定的范式。其次，训练机器人模型的目标也不是唯一的：有些情况是让机器人在某个特定场景干到极致，比如工业场景中人的节拍效率和100%的成功率；有些场景更看重泛化性，成功率98%、99%也可以接受，甚至允许人在过程中做一些干预、接管兜底，但对泛化性要求很高。面向不同目标，用到的数据比例也会不一样。

对Sharpa来说，答案也很类似，不同的任务他们采取了不同的数据策略。

张凯峰
Sharpa研究科学家、学术负责人

我们的乒乓球机器人是在仿真里面训练的，大概是训练了40小时左右，我们的发牌机器人用的是imitation（模仿学习）的方式来训练的，它大概是用到了两三百小时的teleoperation data（远程操作数据）以及一些Egocentric的数据。

张凯峰也给了我们一个很平均的估算，在训练较为复杂的任务中，各层数据之间的轨迹数量比大约是，遥操作数据：动作捕捉数据=1:100，动作捕捉数据：互联网视频≈1:100。换算下来，遥操作数据在整个数据池里大约是万分之一的存在。但就是这万分之一，往往是最终决定模型能否在真实场景落地的关键。

张凯峰

Sharpa研究科学家、学术负责人

非要我选一个更重要的点，我会选数据质量，因为只有高质量数据才能训练出有用的模型。但如果数量很难规模化，我们就需要做折中，就像我刚才讲的数据金字塔方式，把每一部分数据都利用起来：既能理解环境的变化，也能理解操作的语义，最终帮我们完成操作任务。

07 数据的“捷径”

硅谷路线

以上我们聊到了智元这样的中国机器人公司如何处理数据问题：太贵、太慢，就直接把它做成工厂，利用人力成本和效率优势来打造护城河。但硅谷几家最受关注的机器人公司，却不得不走数据的“捷径路线”。

7.1 PI：让机器人在真实试错中自我进化

比如说Physical Intelligence的数据策略就靠精度加迭代。他们在旧金山Dandelion Chocolate工厂部署了一台机器人整天打包巧克力盒子，同时在办公室提供咖啡服务，员工在Slack里发“我要一杯拿铁”，机器人就去做。创始人Sergey Levine的哲学是：看当机器人不得不在真实世界完成任务时会发生什么，以及这类部署的数据能如何继续改善系统。

在这个基础上，PI试图让机器人在真实部署里通过强化学习持续自我改进。

2025年11月发布的π0.6，用一套叫RECAP的方法，在折叠衣物、装纸箱、做浓缩咖啡等任务上，把最难任务的吞吐量提升了一倍以上，失败率降低了约一半。2026年3月发布的RLT方法，引入了一个特殊的输出token，作为VLA模型与轻量级强化学习策略之间的紧凑接口，只需几小时真实操作练习，机器人在精细操作任务上的速度就能提升三倍，某些动作甚至超过人类遥操员。

这条强化学习路线的吸引力在于：机器人自己产生自己的训练数据，绕过了人工采集。但它有三个今天还没有好答案的真实问题。

第一是奖励函数。衣服叠得“够好”的标准很难量化，定义不准机器人就会找捷径，比如把衣服揉成一团塞进角落，因为这样“占用空间最小”，满足了某个错误的优化目标。

第二是安全边界。机器人在客户生产线上试错，每次失败都有现实代价：损坏产品、影响节拍、甚至伤到工人。

第三是数据归属。强化学习数据是机器人用客户的物理空间和物理资产试错产生的，所有权比遥操作数据更加模糊，遥操作好歹有明确的人工生产主体，但强化学习没有。

如今PI在π0.6上验证的场景，是相对结构化的任务，在受控实验环境里运行了13小时。距离真实工厂大规模部署、在陌生场景里稳定运行，还有相当的距离。

除了强化学习路线，PI同时在探索用我们上面提到的Egocentric视频补充训练数据。PI在2025年12月发布的研究显示，一旦机器人基础模型积累了足够的真实操作经验，加入第一人称人类视频后，各个泛化任务的平均成功率接近翻倍。

7.2 Figure AI：把最大的房东变成数据采集场

2025年9月，Figure AI与全球最大另类资产管理公司Brookfield签署战略合作。Brookfield管理着超过10万套住宅、5亿平方英尺的商业办公空间和1.6亿平方英尺的物流空间。

Figure的计划：在这些真实的家和写字楼里，让人戴着摄像头拍视频，用这些视频训练Helix模型，目标是建成“全球规模最大、最多样化的人形机器人预训练数据集”。Brookfield同时跟投了Figure超10亿美元的C轮融资。

Figure随后发布了初步结果：Helix模型在只用第一人称人类视频训练、没有任何机器人数据的情况下，已经能根据自然语言指令在杂乱的真实房间里导航移动。

7.3 Sunday Robotics：众包做家务视频

还有一家更小的创业公司Sunday Robotics，走的路更极端：直接付钱让普通人在家里录自己做家务的视频，然后用这些视频训练机器人，把“数据采集员”变成众包经济的工作。

如果我们看看不同机器人公司如何押注数据路线，我们会发现，不同的市场因为生态不同做出了不同的决策：整个硅谷在往视频数据靠，减少对遥操作的依赖，押注可以被动规模化的采集方式。这和中国公司的方向形成了差异化。

但这两种选择可能也无所谓对错，因为我们还在行业的初期，任何的尝试都是有意义的，特别是对于数据来说，开源更是一件广受欢迎和好评的事。

08 种树人和数据飞轮

开源百万条数据换来的是什么？

2024年，智元做了一件让行业困惑的决定：把自己辛苦采集的百万条遥操数据，打包成AgiBot World数据集，免费向全球开放。

但这背后有一个被大多数报道忽略的行业困境。2023年到2024年，具身智能公司大量涌现，但整个行业面临一个根本性的认知危机：没有公共的数据基准，就无法判断一个模型的训练方法对不对。谷歌的RT系列和开源模型OpenVLA在学术界引发了广泛关注，开创了VLA这个范式，但因为训练数据全是学术级的数据集，在实际场景里的效果依然有限，导致这个范式的真实潜力长期得不到验证。

姚卯青

智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO

这件事一定得有人迈出第一步，工业界的人得迈出第一步，否则谁也无法真正训练出高质量的模型，也没有一个公允的benchmark（基准测试）数据集来做评测。面对这个数据荒漠，我们算是种下了第一棵树，希望将来能变成一片森林。

而这棵树发芽了。

2025年3月，英伟达在GTC大会发布第一代具身基础模型GROOT N1。而GROOT N1训练所用真实世界数据里，约80%来自AgiBot World。

而开源的连锁效应还不止于此。越来越多的学术团队在用了AgiBot World之后，转而采购智元的机器人本体做研发，因为在同一款本体上采集的数据，在这款本体上训练出来的模型效果更好。

也就是说，数据开源带来了生态，生态带来了硬件销量，硬件销量产生更多数据。

同时我们也看到，机器人的数据工厂在建，开源生态在形成，下一个问题是：具身智能能否形成真正的数据飞轮？

姚卯青

智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO

数据飞轮绝对会存在。具身智能跟大语言模型一样，数据飞轮的核心是：模型部署之后，在用户的使用过程中持续接收到反馈，利用这些反馈不断提升能力，最终变成用户体验的提升。机器人现在其实更需要这样的飞轮，也更会催生这样的飞轮。语言模型容错度比较高，说错几个字、有些似是而非，用户还能接受。但机器人如果是在工厂打螺丝，毫米级的精度，差一点可能就不行了，一定需要在现实部署中不断遇到失败场景，把这些数据采集回来持续提升，才能达到进工厂接近人类节拍的百小时、千小时MTBF（平均故障间隔）级别。

陈茜

硅谷101联合创始人

这样的一个数据飞轮，类比大语言模型的scaling law（缩放定律），它们是一回事吗？还是有区别的？

姚卯青

智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO

基本上还是一回事。数据飞轮就是要在真正实地部署的形态下持续收集数据。这套我们现在已经在所有机器人产品上作为标配搭售了，在用户许可的情况下，会像自动驾驶的功能一样，收集那些高优的数据。

陈茜

硅谷101联合创始人

部署的机器人收集到的数据，大概有多少比例可以回流回来再给你们进行训练？

姚卯青

智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO

大概在5%以内。因为大部分时间这些数据对我们来说没有提升意义，因为都是成功的，属于已经会的东西。

陈茜

硅谷101联合创始人

所以你们只需要失败的。

姚卯青

智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO

对，要的是还不会的。不然天天这么多机器人在跑，全世界的存储都存不下这些实时数据，大家都是触发一些高价值的数据。

但飞轮能转，不代表转速能达到预期。这里有一个比飞轮更基础的问题：具身智能的scaling law（缩放定律）是否成立？

在语言模型里，这个问题有明确的答案：数据翻倍、模型变大，能力就会涌现。但机器人行业，目前还没有答案。

张凯峰
Sharpa研究科学家、学术负责人

我们需要看到：随着数据量增加、模型规模变大，能够有智能的涌现，能够实现任务级的泛化能力。我认为现在还没有看到有任务级别的泛化，我们现在能看到的泛化往往是物体层面的——见过很多种类的物体，能够实现物体层面的泛化，也能实现环境层面的泛化，但任务层级的泛化，还没有。

这里就是关键区别：物体泛化（见过类似物体就能处理）和任务泛化（从没见过这类任务也能举一反三），是两个完全不同量级的能力。前者今天已经在一定程度上实现，后者还没有可信的证据。而这个证据，是整个机器人行业走向下一步进化的钥匙。而在机器人大规模部署之前，我们可能都不会有答案。

PI的创始人Sergey Levine教授在他的Substack上写道：在美国有约1万家麦当劳，一旦每家麦当劳各放一台机器人，每天工作两小时，一年就能产生1000万小时的具身智能训练数据，比现有全球积累的总量还要多几个数量级。

在今年3月底，智元率先在产量上突破了10000台具身机器人。我们距离找到这把机器人的数据钥匙，是否更近了呢？我们拭目以待。

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定