本文来自微信公众号: IT桔子 ,作者:Judy
世界模型这个名称,在业内至今没有一张统一的名片。有人叫它世界模型,有人叫世界基座模型,有人叫物理AI,还有人把它藏在自动驾驶大模型、VLA或具身智能系统的架构里不单独命名。
阿里的Qwen-AgentWorld、HappyOyster、Qwen-RobotWorld分别指向语言世界、虚拟世界和物理世界;腾讯的HY-World偏向3D可编辑世界;车企更愿意说驾驶世界模型或世界行为模型;华为、百度干脆不单独喊出世界模型四个字。
命名的混乱背后,大家其实在做同一件事:
让机器在真正行动之前,先在内部建立一个可推演、可复盘的动态环境,降低对真实数据的无限依赖,把真实世界压缩成能够无限生成、无限犯错、无限重来的数据引擎。
当创业公司们还在为数据采集权和算力预算焦头烂额时,阿里巴巴、腾讯、华为、蔚来、小鹏、理想已经悄悄把世界模型铺成了一条新赛道。
世界模型是一种野心:让AI超越识别世界,在脑子里先过一遍世界。
自动驾驶的厂商想用它生成雨天、雪天、异型障碍物的“考卷”;具身智能团队想用它让机器人在仿真里摔够十万次再出门;游戏和社交公司则想用它造出一个人类可以沉浸进去的平行宇宙。
大厂入局的方式各有侧重,但核心目标一致:把真实世界压缩成可以无限推演、无限复盘的数据引擎。
一、互联网巨头:
从数字世界到物理世界
阿里的世界模型布局最像是“把货架上的东西一件件摆出来”。
2026年6月,它在十几天内接连抛出三张牌:
6月16日的Qwen-Robot系列、6月17日的HappyOyster 1.0、6月24日的Qwen-AgentWorld。
Qwen-AgentWorld是一款原生语言世界模型,它不生成图片,而是生成环境——MCP工具、搜索、终端、代码工程、Web、操作系统、Android七个环境里,模型能模拟真实交互、自主学习、用强化学习打磨自己。它提供两种规模:总参数35B和397B的MoE架构,激活参数分别为3B和17B;训练数据来自超过1000万条真实环境交互轨迹;模型和评测基准AgentWorldBench均已开源。这等于把世界模型当成智能体的“训练场”而不是“装饰品”。
HappyOyster 1.0则换了一副面孔,它更像是一个“可玩的电影片场”:用户给一句话或一张图,它生成一个开放式世界,并在“世界探索”和“实时导演”两种模式里让用户任意介入。探索模式支持长达1分钟的连续实时位移与镜头控制,导演模式可生成3分钟以上的480p/720p实时画面。阿里把它定位为交互式游戏、虚拟陪伴、互动短剧、文旅体验等行业入口。
Qwen-RobotWorld又走向另一个方向,它是阿里具身智能三件套里的“思考大脑”,与VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav协同,目标是让机器人拥有一个可以预演的内心世界。
三件事情合在一起,阿里正在同时争夺语言世界、虚拟世界和物理世界的定义权。
腾讯混元走的是另一条路,它的HY-World系列更像是在搭建“3D游戏的自动工厂”。
2025年7月,腾讯在WAIC上开源发布混元3D世界模型1.0;12月升级到1.5;2026年4月发布并开源HY-World 2.0。输入可以是文本、单图、多图、视频甚至白模,输出可以是3DGS、Mesh、点云。
2.0版本引入了HY-Pano 2.0、WorldNav、WorldStereo 2.0、WorldMirror 2.0等模块,把世界生成、世界重建、全景图、实时世界生成串成一个闭环。
腾讯的优势在于游戏和社交场景,HY-World真正的用户不是训练自动驾驶,而是做游戏关卡、做虚拟拍摄、做数字孪生。
字节跳动的世界模型项目则像是一次带着短视频数据基因的“秘密行军”。
2025年8月,The Information披露字节Seed团队正在研发世界模型,带队的是周畅,前通义千问核心成员。这个项目最大的底牌是抖音和TikTok每天超过10亿次的视频流,以及EX-4D框架——能把单目视频转成4D多视角场景。它对标的是谷歌Genie 3和Meta V-JEPA 2,目标不是做一个漂亮的视频生成器,而是构建一个能模拟物理规律的“数字孪生”。
2026年6月23日的火山引擎FORCE原动力大会上,字节没有直接发布这个世界模型,但亮出了豆包Seed 2.1系列、Seedance 2.5视频生成模型、Seedream 5.0 Pro生图模型和新的音频生成模型。
而36氪的独家报道则把字节2026年的AI战略概括为四个命题:世界模型年底要达到全球SOTA、Seedance探索动态生成、Coding巩固基础、豆包加速商业化。
这意味着,世界模型在字节内部是第一条命题,只是它选择先让Seedance和Doubao站在前台,自己继续憋大招。
华为盘古世界模型的气质则是“低调但致命”。
在2025年6月的开发者大会上,华为发布了盘古大模型,基于盘古多模态大模型,核心能力是从单张图片生成高精度的数字物理空间。它能预测碰撞、训练机械臂抓取,还能生成驾驶视频和激光雷达点云,帮助华为ADS端到端模型实现“两天一个版本”。
华为没有喊出“世界模型”的口号,而是把它当成智能汽车和具身智能的“训练底座”。与广汽的合作是典型案例:2D视频和3D点云像素级对应,数分钟复原复杂Corner Case。
2026年6月的HDC 2026上,华为把盘古大模型推到7.0,并发布昇腾910C,余承东重新挂帅盘古,但世界模型本身没有单独的新版本消息。
这种“世界模型不单独存在,而是服务于产业闭环”的思路,是华为一贯的风格。
百度在自动驾驶领域入局更早,2024年5月发布的Apollo ADFM被定位为“全球首个支持L4级无人驾驶的自动驾驶大模型”。
虽然百度没有把它命名为世界模型,但它本质上具备了世界模型的功能:通过端到端神经网络理解物理世界、预测交通参与者的行为。2025年11月,文心大模型5.0以原生全模态形态亮相,参数规模达到2.4万亿;2026年1月上线正式版。
百度的世界模型能力已经藏进更大的一盘棋里。百度的策略是:不单独谈世界模型,而是让Apollo和文心互为表里。
小米和商汤则代表了两种“技术流”。
小米2026年5月13日开源的Xiaomi OneVL,把VLA、世界模型和潜空间推理统一到一个框架里,强调视觉推理过程的可解释性,做的是自动驾驶和具身智能都能用的基础件。
商汤绝影的“开悟”更像是一个已经上岗的“老司机”,2025年9月弗若斯特沙利文的报告里,它被定义为行业首个已量产、可交互的世界模型,能生成150秒、1080P、11视角的驾驶视频,并沉淀下业内最大规模的生成式驾驶数据集WorldSim-Drive和千万级生成场景库。
2026年6月,由商汤联合创始人王晓刚创立的大晓机器人又宣布完成数亿美元融资,其开悟Kairos世界模型3.0在具身视频生成、任务指令追随等维度位居生成预测四大榜单榜首。
商汤系的世界模型,正在从智能汽车向机器人进一步蔓延。
二、车企:
把世界模型当成驾校和考场
如果说互联网大厂的世界模型是在“造世界”,那车企的世界模型就是在“用世界”。
蔚来是中国车企里最先把世界模型当成旗帜来挥舞的。
2024年7月的NIO IN上,任少卿发布NWM(NIO World Model),定位是中国首个智能驾驶世界模型。
它采用多元自回归生成架构,做两件事:空间上的“想象重建”和时间上的“想象推演”。
给一个真实场景,它能还原出3D世界;给一个三秒提示,它能生成两分钟以上的未来视频。每0.1秒,它推演216条轨迹,选出最优解。
蔚来的逻辑很清晰:端到端模型不够,真正聪明的智驾系统需要像人一样“闭眼也能想象路况”。2026年6月18日,蔚来正式推送全新版本NWM 2.0,覆盖超过70万全系用户,即便是四年前购车的老车主也能免费升级,Banyan、Cedar、Coconut+四大整车系统同步发版。新版在国内首次实现智驾模型直接输出方向盘、加减速踏板原始操作信号,并把训练体系从“世界模型+闭环强化学习”升级为“世界模型+监督微调+闭环强化学习”三层。AEB覆盖场景是标准AEB的6.7倍,误制动概率降到十万公里一次。
神玑NX9031芯片甚至被描述为“天生为世界模型设计”。
理想汽车在2024年下半年提出了“重建+生成”的世界模型思路,并在CVPR 2025发表了DrivingSphere。
它由OccDreamer扩散模型和VideoDreamer ST-DiT组成,构建了一个高保真4D闭环仿真环境。
传统开环仿真只能评价模型“看见了什么”,而闭环仿真能评价模型“做了什么”。理想的世界模型就像是一个可以无限生成错题的考场,让智驾系统在芯片里先把刁钻场景跑熟。
到了2026年6月的Livis Day,理想把这套能力进一步升级为“马赫VLA”,原生多模态MoE架构,感知、预测、规划统一,车端双M100芯片算力2560TOPS,反应时间0.28秒。
按照理想公布的路线图,第三季度会向AD Max用户推送全新马赫VLA,第四季度目标对齐特斯拉FSD V14。理想不再只是一家汽车公司,它正在把自己塑造成一个具身智能系统Livis的提供商。
小鹏汽车的路径则呈现出“先做大,再做精”的层次感。
2025年4月,小鹏在香港的AI技术分享会上首次披露正在研发720亿参数的超大规模自动驾驶“世界基座模型”。
一年后,2026年4月1日,小鹏正式发布X-World世界模型技术报告。
它基于视频扩散生成技术,在WAN 2.2的潜空间视频生成范式上改造,采用3D因果VAE和视角-时间自注意力DiT,支持7路环视摄像头跨视角一致生成。
X-World不是视频生成工具,而是小鹏第二代VLA的“现实世界模拟器”:仿真场景从一年前的3万个增加到50多万个,每日仿真测试里程等效3000万公里实车测试,并支持在线强化学习和海外数据生成。
2026年6月的CVPR上,小鹏又首次展示了完整的世界模型技术图谱。小鹏的野心写在它的应用范围里:AI汽车、AI机器人、飞行汽车。它的训练数据规模目标是2亿段clips,万卡集群提供10 EFLOPS算力,每5天迭代一次。
吉利汽车在2026年CES上亮出了WAM(World Action Model),并把它塞进全域AI 2.0体系。
WAM的分层架构很有意思:上层是多模态大模型MLLM负责理解,下层是Action Expert负责动作,中间是世界模型负责推演。
吉利的目标不是让智驾模型更好,而是让整车变成“一个大脑”——智驾、座舱、底盘、动力统一调度。2026年4月,极氪8X上市即交付,成为国内首款量产上车的舱驾融合超级智能体,其G-ASD 4.0就基于WAM。2026年目标高速L3和低速L4。
比亚迪的世界模型还在早期预研,2025年1月披露的信息显示,它内部参考了特斯拉路径,组建小团队快速试错,重点解决端到端智驾的Corner Case数据生成。
长城也提出了VLA+世界模型的下一代智驾方向,并且从“战略”走向了“量产”:2026年6月,长城在智能驾驶与出海大会上分享了VLA实践,保定的九州超算中心算力达到5 EFLOPS,GPU超过一万张,坦克700将成为首款搭载Coffee Pilot 4.0 VLA系统的车型,2026年内量产上车。超过200万辆的存量车队每天产生海量数据,这是长城相对于造车新势力最厚实的家底。
三、智驾供应商:
藏在车底的世界引擎
在车厂之外,还有一批供应商把世界模型做成了“隐形引擎”。
Momenta在2026年4月的北京车展上正式发布R7强化学习世界模型,并实现量产首发。
它是一个三层架构:世界模型预训练、世界模型仿真、强化学习。R7基于Momenta量产业务带来的超过120亿公里实车里程,从中提炼出超过1亿段“黄金数据”用于预训练,再让模型在仿真中经历海量长尾场景,最后用强化学习打磨。
Momenta直接把它嵌入端到端基座模型,目标是实现L4级标准。商业数据也在快速膨胀:搭载Momenta系统的量产车辆已突破90万台,成功交付超过100款量产车型,累计定点超过210款,方案落地英国、挪威、新加坡、澳新等超过10个国家和地区。
2026年6月,Momenta通过港交所聆讯,以“物理AI第一股”和65%的第三方城市NOA市占率冲刺IPO。足见其对世界模型的押注。
地平线在2026年5月发布了HorizonDrive,一个自回归世界模型,核心能力是分钟级的长时序驾驶视频生成。
它用video-VAE在潜在空间工作,输入高清地图、3D边界框和自车动作,再输出连续未来场景。
HorizonDrive的亮点是“自纠错”训练:通过SRR和TRD技术,让模型在生成错误时自己修正。在nuScenes上,它的FID降低52%、FVD降低37%、轨迹精度提升21%;单张RTX 5090能生成256×512的视频,速度5.6 FPS,或384×768视频1.7 FPS。它的定位是闭环自动驾驶仿真,帮助车企在不上路的情况下验证L3+系统。
毫末智行的DriveGPT是国内最早喊出“世界模型”口号的项目之一。
2023年4月发布的“雪湖·海若”是一个生成式自动驾驶大模型,用下一帧预测的方式构建4D表征空间。它背后是100亿帧互联网图片、480万段4D Clips和8700万公里辅助驾驶里程。
毫末走的路和特斯拉World Model、Wayve GAIA-1类似:让自动驾驶大模型从“看图片”进化到“看视频”,再进化到“预测视频”。它为长城魏牌、小魔驼无人车等场景提供能力。
元戎启行在2025年8月26日发布DeepRoute IO 2.0平台,搭载自研VLA模型。
2026年4月的北京车展上,元戎又进一步发布基座模型技术与物理AI战略,并亮出商业化数据:搭载其城市NOA方案的量产车辆突破30万辆,过去一年搭载元戎主动安全系统的车辆累计真实道路运行里程超过13亿公里,累计陪伴用户驾驶时长达4480万小时。
元戎没有单独命名一个世界模型,但DeepRoute IO 2.0的仿真和训练体系里,世界模型是隐含的核心。
四、创业公司和大厂:
两张地图,同一座城
而这张大厂布局表,是另一张地图。
两张地图指向同一座城:谁能让AI真正理解物理世界,谁就拥有下一个时代的入口。
创业公司的优势是专注和速度。
它们可以押注一条激进的路线,比如原生世界模型、3D空间生成、VLA物理引擎,不被现有业务牵绊。但它们缺数据、缺算力、缺量产渠道,更缺一个能把世界模型持续喂大的真实场景闭环。
大厂的劣势是组织惯性和多部门并行导致的命名混乱——阿里的三个世界模型项目甚至让外人分不清它们是不是同一件事。但大厂手里有数据、有算力、有用户、有车辆,还有把模型跑起来的工程体系。创业公司造的是“模型”,大厂造的是“系统”。
最危险的时刻,是当大厂把世界模型从“研究项目”变成“业务底座”的时候。华为盘古大模型服务于ADS和机器人,腾讯HY-World服务于游戏和工业,理想DrivingSphere服务于智驾迭代,商汤开悟已经量产上车,Momenta R7已跑在超过90万台车上——
这些不是发布会上的PPT,而是正在进入产品流水线的“能力”。对于创业公司来说,世界模型的窗口期正在收窄,未来的竞争会迅速从“谁能做出世界模型”变成“谁的世界模型能被大厂用得起、用得好”。
五、世界模型不是风口,
是旧战争的升级
世界模型不是一个新故事。
它是语言大模型、视频生成模型、自动驾驶端到端模型、机器人VLA模型在物理世界交汇后的自然产物。
大厂们纷纷入场,说明这件事已经从“技术极客玩具”变成了“产业基础设施”。
阿里、腾讯、字节、华为、百度、小米、商汤在数字世界和物理世界之间搭起桥;蔚来、理想、小鹏、吉利、比亚迪、长城把“桥”修到了汽车上;Momenta、地平线、毫末、元戎则在桥底下铺铁轨。
创业公司站在桥的尽头,手里握着更精巧的图纸,却不得不面对大厂正在调动工程队的事实。
接下来的一年,世界模型赛道的核心问题不会是“谁做了”,而是“谁的世界模型真的在替人理解世界”。
