本文指出具身智能发展受限于数据质量而非规模,需打造标准化自动化数据转化链路破解数据困境。 ## 1. 数据荒漠是具身智能产业化的核心瓶颈 行业已形成共识:数据是模型能力边界,数据荒漠制约具身智能泛化能力突破。摩根士丹利预测,2050年全球具身智能市场规模有望达5万亿美元,中国市场2035年前后迈入万亿元规模,当前数据瓶颈让大量算法原型无法落地,数据环节成为产业和资本关注焦点。 ## 2. 数据产能扩张后,数据处理成新卡点 2024年全球具身智能数据采集工厂市场规模约7.53亿美元,预计2031年将达67.52亿美元,年复合增长率36.8%,多家企业提出百万至千万小时级数据目标。第一人称社会化众包数采解决了传统数采成本高、扩展慢的问题,但多模态数据对对齐精度要求高,传统工具链分散,数据处理成本可达采集的3-5倍,原始数据到可用训练数据的转化成为隐形卡点,**核心矛盾已从数据数量不足转为可用优质数据供给不足**。 ## 3. 真实运营场景是理想的数据来源 自动驾驶与具身智能都需要理解物理世界,数据工程能力可迁移。当前行业主流实践是推动机器人进入家电、汽车等真实业务流程,在执行任务中持续沉淀数据,相较于人工搭建的采集场景,能持续覆盖长尾复杂问题,一旦链路跑通,对能力迭代和落地的价值更直接。 ## 4. 亟需可规模化的标准化数据方案 当前核心问题已从获取更多数据,转为以可承受成本将原始数据转化为高质量训练资产。真正可规模化的数据方案,需要搭建覆盖采集、处理、标注、训练对接全流程的标准化自动化可追溯链路,通过工程手段提升现有数据可用度,为数据规模扩张降本。
具身智能的数据困境,不只在数量
2026-06-24 21:58

具身智能的数据困境,不只在数量

本文来自微信公众号: 智东西 ,作者:许丽思,编辑:漠影


过去几年,大模型的发展证明了,模型进化依赖于底层数据红利的爆发,数据就是模型的能力边界。


这也是当前具身智能行业的一大共识。虽然VLA、世界模型等各种技术路线五花八门,行业尚未形成统一答案,但对数据重要性的判断已经趋于一致:数据荒漠已成为制约具身智能泛化能力突破的核心瓶颈。


与此同时,具身智能处于从实验室探索走向产业化前夜。


摩根士丹利预测,2050年全球具身智能市场规模有望达到5万亿美元,中国市场也将在2035年前后迈入万亿元规模。


万亿市场风口就在眼前,但是数据荒漠的瓶颈,让无数算法原型都只能停留在实验室,没法大规模地进入各行各业。


这种预期与现实的巨大落差,正在迅速放大具身智能行业对数据的需求。


围绕这一需求,各地政府开始大力建设具身智能数据采集基地、实训场和跨本体数据平台,多家数据产业链企业也在接连获得大额融资。曾经作为机器人、模型幕后配套的数据环节,走到了产业和资本共同关注的舞台中央。


01.


数据产能快速膨胀,


行业却卡在这“最后一公里”


随着具身智能模型训练进入数据驱动阶段,数据采集成为各方争夺的新阵地,大厂、本体公司、零部件供应商都跑步进场。


QYResearch数据显示,2024年全球具身智能数据采集工厂市场规模大约为7.53亿美元,预计2031年将达到67.52亿美元,年复合增长率高达36.8%。


数据规模也成为新一轮竞争焦点,千寻智能、灵巧智能、深度机智、觅蜂科技、光轮智能等企业相继提出百万小时乃至千万小时级数据目标。企业希望通过更大规模的数据,增加任务和场景覆盖,推动模型获得更强的泛化能力。


与此同时,传统数采方式成本高、扩展慢,需要投入大量硬件、场地和专业人员,难以快速覆盖真实世界中海量复杂场景,这就使得Ego-centric(第一人称)数据范式开始备受关注。


Ego-centric数据由头戴相机采集,其视角与执行者一致。相比第三人称观察,第一人称视角保留了真实的遮挡关系、视野边界与运动视差,视觉分布与机器人头部相机的感知输入高度一致。


NVIDIA在Ego-Scale中的研究表明,Ego-centric数据规模与验证损失之间呈现近对数线性的scaling law。这意味着,它不仅是遥操作数据的补充,而是具有可预测增益的独立监督来源。


在东南亚、印度等地,不少人只需佩戴轻量化采集设备完成家务、劳动任务,就能同步生成大量第一人称交互数据。这种社会化众包的数采方式,显示出在成本和规模上的巨大潜力。


采集门槛降低之后,数据处理难题却随之放大。模型训练所需要的数据模态非常丰富,包含了视觉、力觉、关节轨迹和语言指令等,对时空、因果对齐精度要求极高。


不过,传统数据服务商推出的数据工具链功能多数较为分散,采集、标注、质检、格式转换和训练对接往往分布在不同工具和流程中。有业内人士提到,模型训练团队往往需要花费大量精力和时间在内部搭建数据管线连通数据生产、清洗、评估、筛选等不同环节,“有时候这些成本甚至是数据采集的3到5倍。”


当行业大力推动具身智能落地时,从原始数据到可用于训练数据之间的“最后一公里”,已逐渐成为影响模型进化、机器人泛化能力和商业落地效率的隐形卡点。


这意味着,真正有价值的不是有多大规模的数据,而是有多少“能用”且“好用”的数据,这一点与数据处理能力直线相关。


因此,为突破具身智能的数据瓶颈,业界的关注点也开始从只盯着如何获得更多数据,扩展到如何将原始数据高效转化为可直接训练的数据资产。


02.


从原始视频到训练数据,


打造一条自动化流水线


03.


扎根海量真实场景,


沉淀完整、可复用能力


自动驾驶与具身智能虽然面向不同领域的任务,但都需要AI理解真实物理世界,都需要处理复杂环境、多模态信息和大量长尾场景,为数据工程能力迁移提供了基础。


从行业实践看,具身智能比较理想的数据获取方式,是机器人在落地过程中持续产生数据。当前,不少机器人企业与家电厂商、汽车企业等合作,让机器人进入真实业务流程,在执行任务时发现问题、沉淀数据,再将结果用于模型优化。


相较于一次性搭建的采集场景,真实运营场景能够持续发现真实环境中的复杂情况和长尾问题。尽管有可能带来较高的管理难度,但一旦数据生产、模型训练和应用任务能够顺畅连接,真实场景对机器人能力迭代和商业落地的价值也会更加直接。


04.


结语:具身智能,


亟需可规模化的数据方案


当前,行业面临的核心问题已经不只是能否采到更多数据,而是能否以可承受的成本,将海量原始数据持续转化为高质量训练资产。


所以,真正可规模化的数据方案,需要在采集、处理、标注、质检、格式适配和训练对接之间,建立标准化、自动化且可追溯的完整链路,才能避免数据规模扩大后,成本大幅上升、管理变得难以控制。


那就是,以工程手段,加快将原始数据大规模且高效地转化为可直接训练的数据资产,提高现有数据“可用度”,同时为具身数据规模扩张后的数据应用降本打下基础。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定