具身智能赛道中，机器人本体尚未大规模盈利，数据采集作为上游基础设施已率先商业化，成为资本和产业争相押注的独立赛道。 ## 1. 数采生意抢跑的三层核心逻辑具身模型训练需要的真实物理交互多模态数据极度稀缺，截至2026年初全球高质量数据仅约50万小时，不足大语言模型训练数据的两万分之一，且存在数据格式孤岛问题，供给缺口巨大。当前全赛道对高质量数据呈刚性饥渴需求，先拿到数据就能先迭代模型、抢占场景，产业巨头也已下场布局验证数据基础设施，真实工况的工业级场景数据尤为稀缺。 2026年以来具身赛道投资门槛拉高，资金外溢至上游数采，商业化可预测性比机器人本体更稳，资本押注全行业刚需更稳妥。供给稀缺、需求膨胀、资本外溢三重逻辑推动数采率先实现商业化。 ## 2. 数采赛道已形成三类玩家的差异化布局第一类是纯数据基础设施专项公司：光轮智能做物理精确合成数据与仿真基础设施，2026年3月完成10亿元融资，估值破10亿美元成全球首个具身数据独角兽，2026年一季度拿下5.5亿元订单；无问智科建有国内最大实体数据采集训练场，覆盖6类场景，日产千小时数据，2026年一季度手握数亿元订单，完成超亿元A轮融资。第二类是本体+数据的头部机器人公司：智元机器人拆分数据业务成立觅蜂科技，独立面向全行业服务，成立仅十天就完成数亿元种子轮+天使轮融资，获资本认可；银河通用以合成仿真数据为主，一周可生成十亿级数据集，成本降至真实数据的1%；千寻智能主打真机采集，已积累超20万小时多维度数据。第三类是跨界平台型巨头：京东计划发动60万人，两年内积累1000万小时真实场景数据，依托自有场景优势布局；百度发布具身智能数据超市，中国移动建成家庭场景训练场，行业正从分散采集转向平台化供给。 ## 3. 数据竞赛的未来走向当前竞争已从单纯比数据量升级为多维比拼：创业公司拼技术与差异化，平台大厂拼规模生态，场景方拼产业协同。未来工业场景中，掌握核心场景的玩家将掌握数据质量标准制定权，价值高于单纯的数据采集规模。行业终局取决于不同来源、不同体系的数据能否打通，一旦打通，数据将成为物理AI时代的核心基础资产，或将改写整个具身智能行业的版图。

2026-06-02 11:53

机器人还没大规模赚钱，“卖数据的”先成独角兽了

小饭桌

速览

本文来自微信公众号：小饭桌，作者：关注具身的，编辑：张丽娟

具身智能领域，一场“淘金者还没挖到金矿，卖铲人先赚到了钱”的故事正在上演：机器人本体还没能实现大规模盈利，训练机器人必不可少的“数据采集”倒先成了一门热闹生意。

不用看太远，最近两个月就足够直观了：光轮智能一季度拿下5.5亿元订单，3月完成10亿元融资，成了全球第一个具身数据独角兽；无问智科一季度签下的订单金额已达到数亿元量级，4月底刚刚完成超亿元融资。

产业端同样在加码。工业巨头博世一边与银河通用成立合资公司，砸10亿元在苏州建机器人研发与产业化基地，一边又与千寻智能签下战略合作协议，在工厂实地开展机器人数据采集和模型训练。

更具信号意义的是，京东在4月中旬宣布发动数十万人参与数采，要在两年内积累千万小时的真实场景数据。一个电商物流巨头正在系统性地往具身产业链上游走，把数采当成基础设施来布局。

这几条线索拼到一起，一条主线就出来了：在具身产业链上，数采这个“铲子生意”正在独立跑出了一套商业逻辑，不再是某家机器人公司的附属业务，而是被资本市场单独定价、被产业巨头系统性押注的重要赛道。

就像不久前智元机器人旗下觅蜂科技CEO姚卯青所说的：“在具身智能尚未真正大规模商业化之前，数据作为基础设施会比终端应用更早形成商业回报。”他的这句话点破了当前数采赛道的底层逻辑，产业链中的头部“卖铲人”往往先赚到钱。

顺着这些线索，我们想搞清楚几件事：这门生意为什么能抢跑？大厂入局意味着什么？以及这场竞赛最后可能会走向哪里？

抢在本体之前，数据先“上岸”了

要理解数采为何能抢跑，首先得看清一个“数据鸿沟”。

实际上，大型语言模型和具身模型处在完全不同的数据环境里。大语言模型有整个互联网几十年来沉淀的海量文本语料作为“口粮”，像GPT-5这种级别的大模型训练语料折算下来超100亿小时。

但具身模型的处境完全不同，本质上它是一个“感知-决策-执行”的闭环体系，要通过和物理世界反复交互来学习智能行为，而不是仅仅处理文字信息。训练这种模型需要的不是文本语料，而是机器人和真实世界交互产生的多模态感知-动作数据，包括抓、拿、放、操作、避障等等三维交互轨迹，这类数据要靠与物理世界的真实互动一条条生产出来。

除此之外，更大的障碍来自数据标准化和格式孤岛，不同的传感器、不同的机器人本体、不同的采集设备产出的数据格式不统一，标注规范也自成体系，导致大量的数据难以跨平台共享。

这就造成了巨大的供给缺口。截至2026年初，全球高质量真实物理交互数据总量只有大约50万小时，这个数字甚至不足大语言模型训练数据的两万分之一。

而这个缺口也意味着两件事：其一，没有足够多、足够好的数据喂给模型，算法和本体再强，机器人也难以从一台只会执行预设动作的机器变成真正能干活的伙伴；其二，既然所有玩家还没站在同一条起跑线上，谁能先把数据供给能力搭起来，谁就能更快地迭代模型，在竞争中跑出时间差。说到底，解决了数据端的瓶颈，就相当于给整个具身智能行业按下加速键。

再往实际一点来看，数据的采购已经在一级市场“刚需化”了。当前的局面正如姚卯青所描述的那样，不管是做基础模型的大团队，还是国内外的技术大厂，或者那些做机器人整机的初创公司，对高质量数据的采购热情已接近不计成本，处于一种“有多少就买多少”的饥渴状态。

这种急迫其实不难理解，在数据基础设施早期发展阶段，先拿到足够的优质数据就能先训练出模型、先交付客户、先占住场景。对于急着向市场证明自己能跑通商业闭环的具身智能公司来说，没人愿意在这件事上慢半拍。

产业端的动作也从另一个方向印证了这种刚需，比如，博世和宁德时代已经拿出真金白银去构建和验证这类基础设施了。

博世先与银河通用在苏州成立合资公司“博银合创”，计划投资10亿元建设机器人研发与产业化基地，聚焦工业制造场景的具身智能落地‌；后来又和千寻智能签署战略合作协议，通过工厂、物流中心等真实工业场景‌开展机器人数据采集与模型训练。

宁德时代也分别与银河通用、千寻智能开展了产业合作，它领投了银河通用的B轮融资，并把电池产线开放出来给银河通用的机器人，现在已经实现了全自主常态化作业；同时，宁德时代还通过关联资本投了千寻智能，其“小墨”机器人从去年底开始在中州基地的电池产线上承担生产工序。

有意思的是，两家公司的机器人在两家客户的产线上“撞车”，其实换个角度看，这恰恰说明了一条隐性的产业规律：真正稀缺的不是泛泛的通用数据，而是那些经过工厂真实工况检验、带着工业级精度的场景数据。

产业端的这些动作表面上是投资、合作，深层逻辑是这些场景方意识到数据的来源和质量正在成为决定机器人能力上限的关键变量，他们手里最有价值的或许不是订单金额，而是那些“经受过真实工况检验”的高价值数据。

除了需求和供给两头挤压，融资环境的结构性变化也推了数采赛道一把。2026年以来，具身赛道的投资门槛已经被推得很高，头部公司要么进入了上市流程，要么估值动辄超百亿元。一些没能挤进牌桌的机构就要寻找新的投资标的，资金自然而然地就往产业链上游去了。

有个投资人说得很实在，“上游在商业化可预测性这方面其实比机器人本体还要稳当，这押注的不是某一家机器人公司能不能活下来，而是整个行业对数据的刚需，钱放在这里比押单一产品踏实多了。”

供给稀缺，需求快速膨胀，再加上资本结构的外溢效应，三条逻辑交织在一起，让“卖铲子”的数采生意抢在“淘金者”之前尝到了商业化的果实。

赛道刚火，玩家们分工已经分化

只是知道数采“为什么会火”还不够，更值得看的是这个赛道上有哪些玩家，以及他们各自走的什么路线。

把数采赛道做个简单梳理，大致可以分出三种：第一种是纯粹做数据基础设施的“专项公司”，它们不造机器人，也不开发通用大模型，比如光轮智能；第二种是“本体+数据”闭环运作的头部机器人公司，数据业务属于是内部能力的自然外溢，比如智元机器人；第三种则是像京东这样的跨界平台型巨头，依靠庞大产业场景的优势入局。

“专项公司”中，光轮智能是比较有代表性的样本。这家公司成立于2023年1月，做的是物理精确合成数据与仿真基础设施，客户有英伟达、谷歌、字节跳动、阿里巴巴、银河通用、智元机器人等，它更像是一个行业基础设施级供应商。

光轮智能在融资节奏上的加速感也很明显。2024年5月完成数千万元的Pre-A轮融资，经纬创投领投，奇绩创坛和辰韬资本跟投；三个月后，北京市人工智能产业投资基金以战略投资方式进场；2025年9月，三七互娱、东方富海等机构在A轮融资入局；11月又完成数亿元A+轮融资，由三七互娱、东方富海、琥珀资本、九派资本等联合投资，老股东辰韬资本持续加注。

今年3月，光轮智能完成了A++和A+++两轮融资，金额合计10亿元人民币，估值突破10亿美元，成为全球首个具身数据领域的独角兽企业。本轮融资引入了多家产业投资方和财务投资机构，包括新希望集团、鼎邦投资、鼎石资管等产业方，以及建投华科、国方创新、道禾长期投资、清新资本等。

商业层面，今年一季度光轮智能拿下了5.5亿元订单；2025年公司营收增长十倍，今年一季度单季预计收入超过2025全年，这个增速放在整个硬科技赛道也并不多见。

另一个重要玩家是无问智科。这家公司直接“下地”建立了国内规模最大的实体数据采集训练场，覆盖物流仓储、家庭服务、酒店文旅、工业制造、办公服务、商业零售六种场景，日产数据上千小时。

融资方面，今年4月无问智科宣布完成超亿元A轮融资，参投方很多元：国资平台有浙创投资负责政策对接和产业资源整合；产业资本方面包括澄凯灵澄未来基金（由灵心巧手、万凯新材、祥源新材等共同发起）和九识智能；场景方代表则包括某风电龙头企业、浙江埃科等；此外还有架桥资本、海邦投资、甬科天使创投等参投。

这种“国资+产业+场景+VC”投资结构相当于在融资环节就提前为未来面向风电、汽车检测、物流等高壁垒行业的规模化应用锁定了接入通道。

业务上，无问智科2024年营收突破数千万，今年一季度与字节跳动、章鱼动力、无界动力等签约，手握数亿元订单金额，其客户还有灵心巧手、它石智航、星动纪元、零次方等。

“本体+数据”玩家里最具代表的是智元机器人。在觅蜂科技独立拆分之前，智元机器人已经在上海建了一个4000平米的数采工厂。今年4月，它开源了全球首个覆盖具身智能全域研究的真实场景数据集“AGIBOT WORLD 2026”，相当于是把高质量的真实场景数据直接摆上了货架。

脱胎于智元机器人的觅蜂科技则代表了另一种“资产独立+资本化运营”的拆分思路。智元机器人继续聚焦机器人产品和场景落地，把数据采集、运营、交易等环节剥离给觅蜂科技独立运作，以独立法人身份面向行业服务，也能让资本市场对数据资产本身进行独立定价。

融资上，觅蜂科技今年2月注册成立，仅十天就完成了数亿元种子轮与天使轮融资，红杉中国领投，鼎晖VGC、BV百度风投、云锋基金、慕华科创跟投，产业机构均普智能、灵初智能也参与其中。十天完成数亿元融资，市场对数采这个环节的稀缺性和独立价值已经用最快的速度投了票。

银河通用走的是一条差异化路线，其“以合成仿真数据为主、真机数据为辅”的虚实融合训练方式，一周就能生成十亿级操作数据集，成本降到真实数据的百分之一；千寻智能则是主打真机采集，其数据积累超20万小时，覆盖互联网视频、遥操作、可穿戴采集等多个维度。

从纯数据公司到实体训练基地，再到“本体+数据”闭环，这几条路径都在往同一个方向传导信号：数采早就不是附属配套服务了，已经是一个能被独立审视、独立定价、独立竞争的赛道。

而让这场竞赛变得更复杂的，是京东这样的巨头突然进场，把竞争推到了完全不同的量级。

此前，京东推出了一套全链路数据基础设施，计划发动60万人，两年内积累1000万小时真实场景视频数据。京东这么做的核心在于，其日常业务本身就已经覆盖了零售、物流、仓储、医药、办公这些机器人需要适应的环境，不用像创业公司那样专门去搭场景、租场地。这套打法，与其说是“做产品”，不如说是在“铺管道”。

与此同时，百度智能云联合纬钛机器人、灵生科技、零次方、傅利叶等发布了“具身智能数据超市（Beta版）”，首创了一个层级化、可扩展的数据标签体系；中国移动也围绕家庭生活场景建了1200平米的“灵犀数霄”具身智能训练场。

这些大厂的步调几乎同步启动，某种意义上，目前已经成为具身智能数据从“分散采集”走向“平台化供给”的一个关键转折点。

当产业链顶端开始出现这种体量的玩家，整个行业的发展逻辑可能会因此重构，或许将来，下游企业做机器人时，数据就像现在用云计算一样直接从平台端按需调用。到那时，创业公司需要重新想清楚自己的位置是供应商，是工具商，还是某种更深度的产业绑定。

把这些玩家放在一起看会发现，数采赛道的竞争已经不再停留于“谁的数据量更大”这种浅层比较上了，而是在多个维度上同时展开：创业公司拼技术领先、产品差异化和客户，平台型大厂拼规模与生态闭环，宁德时代和博世中国这些场景方则联合具身公司构建战略级的产业协同模式‌。

最后还有一个更根本的问题是，这场数据竞赛最后大概会变成什么样子？

答案或许正在宁德时代、博世中国这种场景方的做法里慢慢显露出来。当拥有工厂、产线和极端应用条件的场景方开始精心筛选谁能留在自己的数据生态里，“数据阀门”实际上已经悄悄拧紧了。未来工业场景里，真正比“谁能采集更多数据”更有价值的，是“谁能标注数据质量的基准线”。

更进一步看，这场“卖铲人”的角逐已经分出了初期的领先者，但竞赛终局并不取决于一两家头部公司，而是在于来自不同采集源、不同训练方式和不同工业评价体系的数据会不会在某个时间点真正打通。一旦打通，这些数据就不再只是机器人产业链的“上游供给”，将直接升格为未来物理AI时代的核心基础资产。

最终改写具身智能行业版图的，或许不是那些每周迭代、站在台前的机器人本体，而是它们背后看不见的那堆“料”。

AI原生产品日报频道: 前沿科技

小饭桌

创业从这里起步

认证作者

已在虎嗅发表 119 篇文章

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP