本文梳理全球世界模型赛道的技术流派,对比头部玩家与酷哇的路线选择,指出当前赛道从榜单到落地仍存鸿沟。 ## 1. 全球世界模型三大主流技术流派 当前全球科技巨头在世界模型赛道分为三大阵营:第一阵营以谷歌Genie 3、OpenAI Sora等为代表,核心能力是逐帧预测像素变化生成逼真未来视频,但常被指出预测像素不代表理解物理规律;第二阵营以Waymo、特斯拉、蔚来NWM为代表,核心是做自动驾驶仿真,仅需预测自车响应与交通流演化,动作空间严格限制为两三个自由度,目标是避免接触;第三阵营以智元、星动纪元、北京人形为代表,聚焦机器人与具身智能,要求模型预测动作后世界的变化,需协调几十上百个自由度,处理复杂物体形变与摩擦,计算复杂度远高于自动驾驶。 ## 2. 三大头部玩家的技术路线分野 2026年5月,智元GE 2.0登顶WorldArena,星动纪元Ctrl-World拿下具身任务能力全球第一,北京人形Pelican-Unify成为双冠王,分别对应三条核心路线:智元搭建全功能世界模拟器,让机器人在虚拟环境试错进化;星动纪元走VLA与世界模型融合路线,用分频端到端打通感知与动作;北京人形推进大一统物理智能回路,三者核心争议为机器人应先在虚拟环境训练,还是直接在真实世界打磨。 ## 3. 酷哇的务实路线选择与代价 酷哇从自动驾驶仿真向机器人具身智能转型,基于自身环卫场景做轻量化取舍,采用实时推演策略,避开先预测后规划的单向滞后缺陷,但目前已积累五十PB数据、实现万台级终端部署,仍存在生态完善度、商业配套成熟度不及英伟达Cosmos千亿级闭源大模型的劣势。 ## 4. 赛道当前的落地困境 目前世界模型赛道无统一评价标准,头部玩家的亮眼成绩多来自榜单与实验室环境,生态成熟度和真实场景验证仍待观察;全行业普遍面临数据优势难以转化为跨场景泛化能力的问题,且行业整体处于高投入期,数据采集成本高,实现大规模商业化盈利的企业极少。 ## 5. 行业核心认知更新 智能的本质是交互而非预测,当前世界模型的发展让通用具身智能更进一步,但实现跨越仍需时间沉淀与全产业链协同。
神仙打架之外:环卫车里长出的世界模型什么样
2026-05-31 19:38

神仙打架之外:环卫车里长出的世界模型什么样

本文来自微信公众号: 科工力量 ,作者:张志峰,编辑:周远方


2026年5月,世界模型赛道至少有三件事值得记住。智元GE 2.0在WorldArena登顶,星动纪元Ctrl-World拿了具身任务能力全球第一,北京人形Pelican-Unify成了双冠王。


它们都在回答同一个问题。机器人到底该先建一座虚拟健身房,还是直接在真实世界里摔打。



这个闭环本身并非酷哇独有。智元用GE 2.0建全功能世界模拟器,让机器人在虚拟环境里试错进化。星动纪元走VLA与世界模型融合路线,用分频端到端打通感知与动作。北京人形则以国家队身份推进大一统物理智能回路。它们代表了当前世界模型的三条主路。


三路分兵,一路刷街


目前,全球科技巨头在世界模型赛道上呈现出不同的技术流派。


第一拨做视频生成,谷歌Genie 3、阿里Happy Oyster、OpenAI Sora,核心能力是生成逼真的未来画面,一帧一帧预测像素变化。图灵奖得主杨立昆曾指出,预测像素变化不等于理解物理世界,生成一段杯子掉落的视频,不代表模型懂得重力和材料力学。但在舆论场里,视频生成和世界模型常被混为一谈。Meta的V-JEPA 2走另一条路,不渲染画面,只提炼物理规律的因果理解,像一位只看棋谱不摸棋子的理论派。


第二拨做自动驾驶仿真。Waymo、特斯拉、蔚来NWM,这拨人其实最老资格,早就在用闭环仿真器测试极端路况、跑安全corner case,只是以前叫仿真器或数字孪生,生成式AI能力提升后,虚拟场景真假难辨,顺势把名字升级成了世界模型。他们的核心任务是预测自车响应和交通流演化,动作空间被严格限制在方向盘、油门、刹车两三个自由度里,目标是避免接触,而非理解接触。


第三拨做机器人与具身智能。智元、星动纪元、北京人形都在这个阵营,他们强调世界模型必须是动作条件化的,即预测的不是下一帧画面,而是我做了这个动作以后世界怎么变。这拨人要处理的是手指、手腕、肩膀几十甚至上百个自由度的协调,要理解推杯子会不会倒、拧瓶盖用多大力、叠毛巾时布料如何形变。道路有车道线和交通灯,规律性强,家庭与工厂里的物体材质、摆放方式、任务目标变化巨大,没有天然的几何约束,数据形态和计算复杂度与自动驾驶不在一个量级。


自动驾驶的世界模型,核心是避免接触,动作空间就两三个维度。人形机器人的世界模型,核心是怎么接触物体,手指、手腕、肩膀几十处关节配合,还得处理软体形变和摩擦力。从车到机器人,不是同一个模型放大,而是换了一个考场。



技术取舍:效率与精度的平衡


酷哇的特殊之处,在于它从第二拨往第三拨跳。


这种减法不是等技术成熟后拿来即用,而是基于自己的场景和数据,在世界模型的路线上做务实取舍。城市开放道路的数据和运营网络,对同场景的移动智能有复用价值,但向人形精细操作迁移,鸿沟仍在,目前未见公开验证。



更关键的是推演策略。


市面上有些世界模型遵循先预测后规划的范式,就像一个人打麻将,必须先把所有人的出牌可能都推演完,再决定自己怎么出。这种单向滞后的方式,往往忽略了出牌本身就在实时改写牌局。


现实挑战:从榜单领先到规模化落地


这种轻量化有代价。跟英伟达Cosmos那种千亿级参数的闭源大模型比,酷哇的生态完善度和商业配套成熟度确实弱。世界模型赛道目前也还没有统一标准,从榜单到真实场景,中间隔着规模化落地的鸿沟。


智元GE 2.0近期在WorldArena特定赛道登顶,星动纪元Ctrl-World拿下具身任务能力全球第一,北京人形Pelican-Unify成为双冠王,但这些成绩主要发生在榜单和实验室环境。作为新发布的世界模型,它们的生态成熟度和真实场景验证周期仍待观察。对酷哇而言,虽然已在智慧环卫、出行等领域积累五十PB数据并实现万台级终端部署,但如何将这些数据优势转化为跨场景、跨本体的通用泛化能力,仍是行业共同面临的难题。大多数世界模型公司仍处于高投入期,数据采集成本极高,系统复杂,真正实现大规模商业化盈利的企业仍是凤毛麟角。



智能的本质是交互,不是预测


当机器人不再只是“执行者”,而是能像人一样在动作与环境的互动中实时思考,我们离真正的通用具身智能确实更近了一步,但这一步的跨越,仍需要时间的沉淀与产业链的协同。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定