揭秘具身数据产业链:一家数据公司的独角兽之路
2026-06-10 13:13

揭秘具身数据产业链:一家数据公司的独角兽之路

本文来自微信公众号: IT桔子 ,作者:吴梅梅


近期,我刷到过这样的短视频报道:“宝妈居家工作,月收入3000-4000元。教机器人叠衣服、擦桌子。”


这则消息引起了我的兴趣,不仅因为它代表了一个新兴的职业缺口——具身智能数据采集员。更重要的是,从整条产业链来看,这个工种的价值是什么,资本如何给它定价?


我结合行业主流媒体的报道,做了调研分析,结果发现,具身智能居家采集员的时薪和他们创造的数据最终卖出的价格,中间有10倍以上的差价。


但这不是高枕无忧的生意,未来仍存在挑战。


一、产业链全景:四层结构,谁在哪个位置?


具身智能数据产业链可以拆成四层。



最底层是采集层——劳动者,采集提供物理动作基础数据。


这一层主要有四类人:


居家采集员:新闻报道上的宝妈们戴着夹爪设备在自家客厅叠衣服、擦桌子,宣传时薪30元,实际有效时薪约17元,月收入3000-4000元。


场地采集员:在数据采集中心里全职工作的大专毕业生,穿戴动捕设备。日薪180-250元,折算时薪22-31元。


合肥市具身智能机器人数据采集预训练场图源:网络


真机遥操作员:专业技术人员穿戴力反馈手套,手把手教机器人完成精密操作。日薪300元以上,时薪75元以上。这是精度最高、成本也最高的采集方式。


机器人真机遥操作图图源:网络


第二层是平台层——连接采集员和数据公司的中间商。


作为中间商,平台层的核心角色是组织者,连接供需、管理流程,甚至提供物理空间和操作场景,并从中抽成。


今年5月,京东在宿迁建了全国首个具身智能数据采集社区,计划发动10万+员工和50万行业人员。此外还有数不清的第三方外包团队和小型组织者。


外包平台从数据公司接单,分包给采集员,中间抽取30%-50%的差价。


除了外包平台外,这个产业链的运作还需要一些基础设施的建设者,他们提供设备捕捉采集作业场景。


比如,鹿明机器人、觅蜂科技、凌云光等设备提供商研发生产硬件,一套动捕设备10-50万元,一套UMI设备约2800元,他们的利润模式很简单易懂,设备租赁/售卖。


第三层是数据层——整个产业链的核心玩家,堪称“炼金师”,把数据转化为资产。


代表企业是光轮智能、智域基石、它石智航、觅蜂科技。


这些公司做的事是:把底层采集来的原始数据,经过清洗、标注、对齐、仿真增强,打包成可训练的数据产品,卖给下游客户。


第四层是应用层——掏钱买数据的金主。


代表企业有三类:


第一类是人形机器人本体公司,如宇树、优必选、智元、银河通用、特斯拉等,需要真机数据训练模型。


第二类是世界模型/大模型团队,典型企业如Google DeepMind、NVIDIA、World Labs,需要人类行为数据理解物理世界。


第三类是产业应用方,如工厂、物流、医疗,需要场景适配数据。


窥探具身智能数据产业链的全貌,是一个经典的“金字塔模型”:底层是大量的廉价劳动力,中层是抽成的平台和卖设备的公司,顶层是掌握数据资产和复售能力的数据公司。


而采集员的位置非常清晰:他们是整个链条的燃料。


二、数据售卖模式:从17元到300元的鸿沟


接着,来看看产业链的核心环节是怎么赚钱的。


先算采集成本。


居家采集员的有效时薪是17元,场地采集员日薪180-250元,按8小时算,时薪22-31元。


真机遥操作成本最高,单小时有效数据成本在规模化运营后约275元(设备折旧+人工+场景),行业说法是小规模采集时可达数千元。


再算售价。


澎湃新闻2025年5月的调查给出了行业定价区间:具身智能数据总体定价在200-500元/小时。其中真机数据最贵,市场价500-1000元/小时。


觅蜂科技CEO姚卯青透露,不依赖特定机器人本体的无本体数据,价格最终会收敛到真机数据的二分之一到三分之一——即300-400元/小时。


现在算差价。



这个数据说明了什么?


采集方式越“低端”,差价倍数越大。


真机遥操作员拿到275元,终端售价800元——只有2.9倍。居家采集员拿到17元,数据公司能以300元卖出——就有17.6倍的利差。


这17元的时薪和300元的售价之间,283元的差额被平台抽成、数据公司的技术处理、设备折旧、以及数据资产的复售溢价等层层分走。


但这还不是数据公司真正的利润来源。


粗算一下:5.5亿÷150万小时=约367元/小时的平均售价。看起来是行业水平,利润率也不是很高?


这种算法有一个关键假设是这些数据只能卖一次。实际上,并非如此。


什么意思?


同一份数据,不是卖给一个客户就完了。


它可以卖给宇树、卖给优必选、卖给智元、卖给银河通用……每多卖一次,边际成本几乎为零(只需要做一些格式转换和场景适配),但收入是实打实的。


这才是数据公司真正的商业模式:一次性投入采集成本,然后通过复售无限摊薄边际成本。


数据的本质和软件一样——复制成本趋近于零。每多卖一次,毛利率就往上跳一截。


四、千亿市场规模下,数据售卖可持续吗?


有数据显示,2026年中国具身智能市场规模预计突破1万亿元,其中数据服务占比超15%,市场规模约达到1500亿元。


那么,在这其中,第三方数据复售模式占比多少尚不得而知。


但可以预见的是,这类商业模式仍存在一些隐忧。


头部机器人厂商早已意识到数据建设的重要性,开始搭建自研中心,包括智元机器人2026年成立具身智能数据平台觅蜂科技,宇树科技此次IPO招股募资将自主搭建大规模真实数据集,其对第三方数据的采购需求会有所下降。


此外,从基础仿真数据、通用场景交互数据到部分真机标注数据集,一些成熟数据逐渐被头部企业、科研机构免费开放,这些开源数据也对数据售卖模式造成一定的冲击。


例如,今年3月底,宇树科技宣布人形机器人高质量全身遥操作真机数据集UnifoLM-WBT-Dataset正式开源,覆盖340小时、合计189万条动作轨迹数据。


不过目前全球开源数据体量上仍较少,未形成规模化效应。


第三方数据服务商的核心竞争力,源于覆盖多场景的数据积累。


但具身智能要在复杂的工业场景落地,需要的不是实验室数据而是真实工业现场数据,假如头部机器人通过合作可以直接获取工厂真机交互、动态场景的第一手数据,第三方数据的性价比优势会被不断弱化。


未来第三方数据售卖模式可能会逐渐向两个方向收缩:一是服务没有能力自研数据的中小机器人厂商,二是提供自身难以覆盖的小众细分场景数据。

AI创投日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定