本文来自微信公众号: 全天候科技 ,作者:全天候科技
3月16日,京东一纸关于建成全球规模最大、场景最全的具身智能数据采集中心的宣发,在被龙虾抢去风头、沉寂了一段时间的机器人赛道砸下重音。
某种意义上,这是一场带有强烈工业互联网色彩的数据大生产运动。
此次动员涵盖内部超10万员工、外部最多50万各行业人员,甚至在宿迁一地就动员超10万市民——这种史无前例的人海战术,试图用规模化的暴力美学,强行击穿具身智能当前最致命的软肋:数据荒。
在模型架构逐渐收敛、算力门槛相对透明的今天,高质量的物理交互数据已成为决定机器人能否真正走向千行百业的唯一胜负手。
这场被定义为“人类历史上规模最大的数据采集行动”的背后,揭示了一个产业共识:当具身智能负责运动控制的“小脑”日渐发达,如何以更高质量数据喂养出真正理解物理世界的大脑,正成为决定行业未来格局的核心战役。
从京东的宏大叙事走向产业的微观现实,这数十万人产生的数据究竟是金矿还是砂砾,还很难确定。

一
卷入的打工人
京东之所以敢于,也必须发起这场数据人海战,其核心逻辑在于其庞大且高度复杂的自营实体供应链。
与纯软件互联网公司不同,京东本身就是一个巨大的物理世界互动场,而具身智能的成熟,直接关系到其未来十年的履约成本与运营效率。
这一布局与北京亦庄的机器人产业生态形成深度耦合。
亦庄经济技术开发区目前已集聚300余家机器人相关企业,产业链规模超百亿元,开放了40余个真实应用场景,成为国内人形机器人产业的核心集聚区。京东作为扎根亦庄的“链主”企业,此前已发布机器人产业加速计划。
京东此时大举投入数据采集中心为代表的软基建,实际上是在补齐产业链最缺失的一环。亦庄提供“躯干”和测试场,京东则试图用海量场景为机器人注入理解真实世界的常识。
这种软硬结合的产业共振,试图打造一个从数据飞轮到硬件迭代的商业闭环。
数十万人的调度绝非易事。
根据规划,采集场景覆盖物流、工业、零售等。在实际操作中,这很可能依赖于京东现有的数字化管理网络。例如让一线快递员、仓储分拣员佩戴带有视觉,甚至力觉传感器的可穿戴设备进行日常作业。
从一线员工和被动员的宿迁市民角度来看,这场运动充满了复杂性。
员工在无形中成为了机器人的数据老师,这些机器人未来的目标正是替代高强度的人力劳动。如何设计合理的薪酬激励与利益分配机制,避免员工的抵触情绪成了京东需要考虑的问题。
不过,当前具体如何实施还没有传导到员工层面。
一位京东的北京地区员工向华尔街见闻表示,目前还没有听说这件事。在他看来,如果有相应的报酬,应当算是一种市场行为,员工是否愿意参与就看个人的选择。京东在宿迁的一位员工也向华尔街见闻表示,还没有收到相应的通知。
尽管在官宣的表述中提到,“对所有数据的采集,京东都将严格依法依规进行”,但现实的情况往往更复杂。
就快递这一场景来说,仓储流水线是标准化的,但快递配送深入千家万户、零售场景涉及大量消费者面部特征与隐私习惯。
在数据合规日益严格的今天,数十万人随身采集的非结构化数据,其脱敏、清洗的合规成本可能是一个天文数字。
二
破题莫拉维克悖论
1988年,机器人学家汉斯・莫拉维克曾得出这样一个结论:
“让计算机在智力测试或下棋中达到成人水平很容易,但要让它拥有一岁婴儿的感知和运动能力,却极其困难,甚至几乎做不到。”
今天具身智能对于莫拉维克悖论的主要映射,集中在行业的数据真空上。
大模型们的成功,建立在直接吞噬互联网三十年积累的万亿级高质量文本语料之上。但物理世界并没有一个现成的互联网。具身智能要想在真实世界跑通缩放定律,面临的是一道巨大的数据墙。
京东的此次大动干戈,所瞄准的正是这一锚点以及数据采集背后的困境。
第一,仿真局限性的问题有待解决。
现阶段,行业获取数据的主流路径已经发生了严重的分化,并在各自的瓶颈中苦苦挣扎。
目前绝大多数初创公司高度依赖仿真环境,如英伟达的Isaac Sim或MuJoCo等物理引擎,让机器人在虚拟世界中进行千万次的强化学习。这种方式成本极低、速度极快,且不需要担心试错导致的硬件损坏。
然而,资深从业者们越来越清晰地认识到“Sim-to-Real(仿真到现实)”的局限性。
物理世界的复杂性不仅在于视觉上的光影变化,更在于极其微妙的物理接触反馈,例如线缆的柔性形变、衣服的非刚性拉扯、螺丝拧入时的微小摩擦力变化,甚至是传感器本身的电磁噪点。
目前的物理引擎算力,无法完美模拟这些高维、非线性的微观物理法则。这导致许多在仿真环境中表现完美的模型,一旦部署到真机上,就会出现严重的“脑梗”或动作失真。
既然仿真有鸿沟,那就回到真实世界。
从斯坦福爆火的Mobile ALOHA,到如今Figure AI、宇树、智元等头部企业,都在大量使用遥操作——即由人类穿戴动捕服或使用VR设备,像控制阿凡达一样操控机器人执行任务,从而记录下第一视角的视觉、关节角度和力矩数据。这是目前被公认质量最高的数据获取方式。
第二,极不符合经济效益的投入产出比也是数据采集的现实困境。
据行业测算,单台全尺寸人形机器人的硬件成本动辄数十万甚至上百万,而通过遥操作采集有效数据,不仅需要高昂的硬件折旧费,还需要支付高昂的专业操作员人力成本。
华尔街见闻了解到,单条高质量的复杂交互任务数据,其采集和清洗成本可能高达数百美元,且失败率极高。
这种作坊式、手搓数据的模式,无法支撑具身智能走向通用化所需的百亿、千亿级参数规模。
为了降低门槛,谷歌等巨头发起了Open X-Embodiment等开源数据集计划,试图集中全球各大实验室的数据供全行业使用。国内也有企业选择开源百万级的真机数据集。
第三,数据采集还有工程方面的难题,即机器人硬件本体的极度碎片化。
狗型、轮式、双足人形,甚至不同厂家的人形机器人,其关节自由度、电机扭矩、传感器布局和重心结构都完全不同。
一台在UR5机械臂上训练出来的高质量抓取数据,根本无法直接平移给一台特斯拉Optimus或京东的物流机器人使用。
正是“跨本体映射”的困难,导致现有的开源数据大多变成了散落的孤岛,难以形成规模效应。
或许正是在上述三大困境之下,具身智能赛道的商业竞争逻辑已经发生了本质的改变:谁拥有真实的落地场景,谁就拥有了持续获取廉价、高质量闭环数据的护城河。
这就解释了为什么特斯拉和京东选择了与其他纯硬件初创公司截然不同的路线。
特斯拉依托其庞大的超级工厂,让Optimus直接在真实的电池分拣流水线上日夜试错;而京东则试图通过其触达全国的物流网络、数十万的产业工人和庞大的实体零售体系,打造一条半自动化的数据流水线。
这种打法,是将企业的供应链壁垒直接转化为AI时代的数据壁垒。
与之形成鲜明对比的是,许多没有自有场景的机器人初创公司,必须被迫转型——他们要么亏本向高校和科研机构低价兜售硬件,以此换取研究者们共享使用数据;要么只能花重金去工厂租赁场地,或者雇佣像简智这类新兴的具身智能数据服务商来定制数据。
可以说,京东的入局彻底撕开了具身智能行业的算法面纱,将其拉入了一个拼资金、拼场景、拼人力调度的重资产商业搏杀期。
在数据荒面前,算法的护城河正在变浅,而掌握真实物理世界交互入口的巨头,正在悄然收拢这张通往AGI的大网。
三
更稀缺的高质数据
面对京东计划“两年内积累超1000万小时真实场景数据”,业内人士的反应并非一边倒的狂热,更多是冷静的审视。
在具身智能的语境里,数据的质与模态,远比单纯的时长重要得多。
算法行业指出当前的核心痛点:当前缺的不是人类视角的第一人称视频,而是包含精确物理反馈的“状态-动作对”。
比如,宿迁市民带着摄像头逛超市,或者快递员记录下送货过程,这产生了海量的互联网级泛化视觉数据。
这些数据对于训练机器人的世界模型,让它理解什么是门、什么是苹果极具价值;但对于训练机器人的“控制策略”,让它知道用多大牛顿的力去捏住苹果而不捏碎,这类纯视觉数据几乎是无效的。
一位从事机器人行业的人士对华尔街见闻表示,机器人缺的是有价值的数据,尤其是机器人真机数据。在其看来,京东这一操作还是属于流程外包的BPO生意,提供人员和场地。
人类在进行物理抓取时,伴随着极其复杂的触觉、力觉和本体空间坐标微调,这些高维度的隐性知识,普通的可穿戴设备根本无法捕捉。如果京东的几十万人力只是在贡献视频,那其后期转化为机器人可执行动作的损耗率将高得惊人。
另一位国内头部机器人企业负责人曾直言,行业的首要难题是“缺乏统一的数据集定义标准”。
例如,每一家机器人公司的关节自由度、传感器位置、驱动器类型都不一样。京东采集的海量人类动作数据,如何重定向映射到不同构型的机器人本体上?
如果缺乏统一的底层标准,这1000万小时的数据最终可能只能变成京东自研机器人的私有营养,而难以成为推动全行业进步的基础设施。
这或许正是京东为何在首年规划中,特别强调了“100万小时的机器人本体数据采集”。行业真正的发展方向,是用来认知世界的人类泛化视频预训练、用来学习技能的机器人本体高质量数据微调,和用来进化迭代的强化学习自我探索。
京东宣布建设具身智能数据采集中心,标志着国内企业开始尝试用规模化、工程化的手段来应对机器人产业的数据短缺问题。
通过实体场景与大规模人力的结合,确实能为数据积累提供一种新路径。
但要真正实现机器人的“智能涌现”,仅靠数据规模的堆砌并不足够。
如何在海量采集中保障数据的高维度与高质量,如何建立统一的数据标准,以及如何妥善处理规模化采集中的隐私与合规问题,将是企业和整个行业在迈向商业化阶段必须解答的课题。
