本文来自微信公众号: 科工力量 ,作者:周远方
这些画面以第一人称视角被记录,即将成为训练具身智能模型的数据燃料。2026年,全球AI的下一座山头,是让机器理解物理因果的世界模型。图灵奖得主杨立昆拿超过10亿美元押注的JEPA架构,核心判断正是如此——大语言模型只懂文字,不懂物理世界,真正的AI需要理解杯子是硬的、装了水会重、松手会掉。而要教机器理解这些,唯一的途径是喂给它海量的、真实的物理世界数据。

世界模型的数据缺口有多大?
大语言模型能迎来GPT时刻,靠的是互联网几十年积累的文本存量——论文、网页、书籍,这些语料早已存在,算法天才们只是找到了挖掘它们的方法。世界模型没有这样的历史遗产。物理世界的交互数据不会自动上网,不会自己变成训练语料。无论硅谷还是北京的实验室,面对的都是同一个空仓库:要让机器理解重力、摩擦力和物体恒存性,需要数千万小时的真实场景数据。
觅蜂科技董事长兼CEO(首席执行官)、智元机器人合伙人姚卯青此前公开表示,训练类似ChatGPT-5级别的系统所需语料达百亿小时量级,而具身智能可用数据仅在50万小时量级,规模差距悬殊,还存在标准缺失、质量不一、供需错配等问题。
这不是巧妇难为无米之炊,而是连判断谁是巧妇、什么是好米、下锅之后该煮成什么饭的标准,都还没有建立。因为没有人知道,什么样的数据才能让机器真正长出物理常识。
采什么,怎么采,难在哪?
我们来到宿迁,实地看看这场模型大战的粮草先行。

宿迁现场,粮草先行
舞蹈老师臧老师在练习室里完成了三小时采集,工作内容是把货品重复上架。他说,舞蹈老师的工作时间相对自由,能够体验另一种完全不同的工作,并获得收入,是一件有趣有益的事情。
在另一家服装厂的车间里,一位戴着头环的中年妈妈在踩缝纫机。与前两位特意放慢动作或刻意重复动作不同,她只是以正常状态和速率进行工作,头环没有带来任何影响。兼做数据采集,为她带来一些额外的补贴。
采访中,她说,不愿意自己的女儿继续进厂打工,如果能够由机器人来干这么枯燥的活,她觉得是一件好事。同时,她也非常骄傲自己能够为训练研发机器人贡献自己的力量。
在宿迁郊外的果园里,采集员记录着果蔬采摘的轨迹和不规则地形下的行走数据。果园负责人对来访者给出了最朴素的回答,之所以对AI接受度高,不是因为技术有多先进,而是因为刚毕业的大学生、20出头的小伙子不愿意干这个活。机器人填补的,是人力市场自然流失的岗位,是原本无人愿意承接的空白地带。
人,才是那具通用的本体
为什么训练机器人的数据,要从人类身上采?
要回答这个问题,需要先理清三个经常被混用的概念。人形机器人是物理本体,具身智能是让人形机器人拥有智能的技术体系,世界模型则是大脑的核心,它让机器人在采取行动前在内部模拟后果,理解重力、摩擦力、物体恒存性。三者是层层递进的关系,没有世界模型的具身智能,本质上还是高级遥控玩具。

目前行业有四条数据采集路线在同时跑。真机遥操,工程师坐在电脑前遥控一具20万的机器人本体,让它重复抓取动作,数据最保真,但只能蹲守单一仓库,且A型号的数据无法用于B型号,本体一迭代,之前的数据就作废了,形成数据烟囱。UMI,采集员手持一个约400美元的3D打印夹爪,上面夹着GoPro相机,在真实环境里开合夹取,打破了必须买机器人才能采数据的困局,但视角只盯着夹爪附近。Ego头环,像戴眼镜一样记录的是人眼看到的世界,全身环境信息完整。仿真,在虚拟引擎里搭建环境,让数字机器人试错,但虚拟世界里的摩擦力和光照与真实世界不同,存在仿真到现实的鸿沟。
在这四条路线中,Ego头环正成为产业界最新的风向。因为它把人类变成了通用数据采集器,打破了必须先买机器人才能采数据的成本门槛。
自动驾驶之所以能用真车采集,是因为汽车的形态是唯一的,四个轮子一个方向盘。但具身智能领域,尤其是机器人形态尚未收敛的阶段,A型号机器人的遥操数据无法喂给B型号,机械臂长度变了、关节扭矩变了、摄像头位置变了,之前采的数据就全部作废。
数据采集的时机,不能因行业早期无法统一标准而白白流失掉,人们突然发现,人类才是那具通用的“本体”,而且成本更低。人有两只手、十根手指、立体视觉、平衡感。这些结构是稳定、标准化的。所以人戴着头环去整理收纳、擦桌子、拧螺丝、协助老人翻身,采出来的Ego数据可以喂给任何形态的机器人。
犬牙交错:书斋与田野
当前,中美在具身智能上的竞争,不是一条直线上的你追我赶,而是两套系统的对抗,态势犬牙交错。一边是书斋里的精巧推演,一边是田野上的粗粝生长。
硬件本体和供应链,中国已经并跑甚至领跑。
特斯拉Optimus Gen 3计划2026年7到8月在弗里蒙特工厂启动生产,远期目标年产100万台。但截至2025年底,特斯拉实际产量仅有几百台,远低于5000台的年度目标,且未达工厂实操标准。马斯克在2026年1月承认,这些机器人主要是用来学习,还不能承担生产性任务,自主运行仍依赖远程操控。其机器人部门还经历了负责人离职,Gen 3涉及约10000个独特零部件,均未经过大规模量产验证,初期产量将相当缓慢,手部和前臂设计的技术难题导致大量无手机体积压。
在中国,智元机器人2026年3月宣布第10000台远征A3下线,已规模化外供至龙旗、立讯等3C产线,实现8小时直播无故障实装。宇树科技同期启动科创板IPO,2026年目标量产1到2万台,2025年度扣非净利润已达6亿元。中国机器人的成本普遍只有美国同类的十分之一,供应链迭代速度以周计算。
小脑和运动控制,双方基本持平。中国胜在高密度场景的打磨,美国强在高动态控制的理论积累。
大脑和具身大模型,美国仍占架构设计优势。特斯拉的FSD视觉栈、Dojo超算,xAI的Grok与Optimus深度集成,这些设计在算法层面确有深厚积累。算法其实依赖足量真实物理数据来喂养,具身智能领域存在一个效率定律,当数据生成速率低于临界阈值时,增加模型容量不会转化为性能提升。美国的数据采集受限于高成本、严格隐私合规和本体供应链短板,数据生成速率极低,算法优势目前无法被证实也无法被证伪,始终停留在纸面和仿真里。
数据与系统耦合,中国则铺开了产线。当美国把资源押注在单一本体的深度打磨上时,中国选择了智元、宇树、优必选等等更多企业齐头并进,各自迭代不同形态的本体,分散试错。Ego数据的通用性恰好适配了这种多本体并行的生态。
共享的数据底座,加上分散的本体试错,再加上每周迭代的供应链,三者咬合在一起,构成了中国量产效率的底层密码。
功夫不在技术,在组织能力
在2026年4月红杉资本AI Ascent演讲中,英伟达科学家Jim Fan乐观预测,(全球)第一视角人类视频数据若接入类似特斯拉FSD的后台飞轮,"未来一年内达到1000万小时"。
为什么美国只敢想1000万小时?不是美国缺人。硅谷不缺工程师,也不缺外包到印度、菲律宾的渠道。甚至印度的人口规模和相对低廉的用工成本,理论上比宿迁更适合做这件事。
但真实的原因是,硅谷的组织结构,无法穿透非标准化的数据采集任务。硅谷公司发一件采集任务,起码要走三层代理,总部到本地管理公司,再到现场数采团队。每一层都在吞噬沟通成本和响应速度。美国不是不想采更多,而是远程管理的多层代理结构根本做不到。
这种动员能力在宿迁并非没有先例。淮海战役期间,这里是华东野战军的后勤走廊,民工用小推车完成支前补给。从推车到头环,跨越七十年,组织人力的底层逻辑一脉相承——都不是精确计算后的行动,而是先把东西送上去再说。
国先中心,即国际先进技术应用推进中心深圳,在其2026年3月发布的具身智能数据行业研究白皮书中指出,行业普遍认为要实现具身智能涌现至少需要百万小时来自真实世界的物理互动数据,目前积累的数量尚不足5%。现阶段实际可用数据量远未满足需求,且数据采集和使用方法尚未形成共识,领域内缺乏统一的能力评估基准。
而高质量数据的定义权,在当下这个阶段,恰恰是由这种组织能力来生成的。一位业内人士半开玩笑地说,数据采集这件事,最后要经得住居委会大妈的吊打。这种无法被SOP化的、嵌入日常生活的追问,是目前最接近真实世界的质检标准——不是要定义高质量,而是要不断逼近高质量。
在本地一家养老院里,采集员戴着头环,记录着协助老人起身、翻身、擦身的全过程。需要被记录的人类双手动作,极易被身体、被褥或护理器械遮挡。双目头环拍到的常常是一个半截胳膊,或一个肩膀的背影。对于追求精准轨迹的数据采集来说,这几乎等于废片。
事后向业内人士求证,这种被遮挡的、不完整的动作数据,有价值吗。对方回答,没关系,只要数据量足够大就行。
如果数据太少,会连”什么是废片”的标准都无法建立。所以先全采全收,让模型自己来当裁判。面对一个极难采集、充满遮挡的真实场景,正确的选择不是先确保百分百高质量再采,而是先采下来再说。让模型自己在海量数据中去学习,去判断一个被遮住一半的动作是否依然有价值。
希望与焦虑的交汇点
未知也不等于没有办法,市场机制正在试图扮演那个在未知中寻找秩序的角色。
这个平台的逻辑很简单,既然没人知道什么是高质量数据,那就让市场来投票。一个数据集好不好,不需要专家委员会来定义,看看有多少家企业愿意花钱买就知道了。供需双方在交易中自然形成价格信号,价格信号反过来指导采集方向。
市场会倒逼出一套筛选机制。那些真正能提升模型泛化能力的数据,最终会被复用和溢价;那些只是堆砌无效帧的数据,则会被交易市场用脚投票淘汰。这不是解决未知质量的终极方案,但它是目前最务实的方向——用交易的纪律,代替理论的争吵。
按市场一般水平,数据在交易流通环节的价格约为200元每小时。但方老师每月三四千元的到手收入,按每天2到6小时、每月约20天折算,实际时薪约30到50元,但这些数字对宿迁的工厂主和采集员来说,依然是真实的生计计算。生计计算的另一面是,没有人知道这些数据最终值不值这个价。
这恰恰体现了中国在具身智能赛道上的独特优势。不是我们已经找到了正确答案,而是我们拥有快速将试验变成商品、将模糊需求变成市场报价的产业组织能力。
先上再说
晚上九点,宿迁的采集工作陆续收工。
这些白天里被镜头记录的面孔,此刻散落在县城的不同角落。练习室里的标准动作,工厂里的朴实愿望,流水线里的粗粝真实,田间地头的无人接替,哪一种更接近世界模型需要的因果。没有人知道答案。但系统会把它们都标记为有效数据,上传,清洗,喂给模型。
在2026年春节,行业迎来了一个高光时刻。宇树科技的人形机器人在春晚舞台上表演武术节目《武BOT》,弹射空翻、醉拳、双节棍,动作凌厉。社交媒体上相关视频累计播放量过亿,具身智能这个词第一次以正面、出圈的方式进入公众视野。无数人在那一刻相信,机器人时代真的来了。
那个瞬间,是行业给所有从业者的一个奖励——让你们在大众面前看看自己造的东西有多酷。
但春晚舞台灯光熄灭之后,回到宿迁的厂房里,回到真实的量产报表前,故事的另一面开始浮现。2026年6月1日,宇树科技科创板IPO将上会审议。作为具身智能领域最耀眼的明星企业,宇树的财务数据呈现出一个矛盾的图景,2026年第一季度营收增速从335%骤降至68%,现金流下降85%。
更现实的焦虑在于,随着宇树上市,早期投资人将进入退出通道。当资本退潮时,那些寄希望于政策补贴和企业投入的各地训练场,能否在失去资本关注后继续运营,能否坚持到下一个周期,没有人能给出肯定的答案。
春晚的光环与资本市场的算盘,同时落在这条赛道上。高光与阴影本来就是并存的,这才是领先者的真实处境——资源错配是常态,不是意外,大家都是在迷雾中全速奔跑,付出论证方向的代价,或许是跑出生天,或许是跑进一锅夹生饭。
整理房间、踩缝纫机、上架商品和协助老人翻身的动作还在继续,谁也不知道这些数据最终会被哪个模型消化,不知道自己记录的是否属于那十分之一有用的部分。
七十年前,这片土地上的人们用小推车推出了一场战役的胜利,当年的老乡不知道哪一车粮草最终改变了战局,今天的宝妈也不知道哪一帧数据会被模型消化。工具变了,粗粝的逻辑没有变,都是先把东西送上去,再让历史来筛选。
试验田之所以是试验田,就在于它注定要同时承载探索的勇气与失败的风险,而真正赢过的人知道,有些胜利,本来没那么确定。
时机到了,只有先上再说。
