本文是业内专家对世界模型的概念、发展现状、技术路径与行业格局的深度讨论，梳理了行业核心问题与发展方向。 ## 1. 世界模型的定义与升温原因世界模型当前主要分为三类：做视频生成的渲染器、服务强化学习的仿真器、可生成动作策略的规划器（world action model）。视频生成模型不算是真正的世界模型：**核心区别是可交互性与世界状态维护**，Sora仅拟合像素，缺少对物体物理属性的建模，长生成易出现违反物理规律的问题，属于范式缺陷而非参数规模问题。世界模型近年升温源于两个关键变化：以DiT为代表的扩散模型技术突破，可从互联网数据学到物理直觉；大语言模型带来的算力、基建资源溢出，推动资源流向多模态方向。需求侧则源于具身数据缺口、VLA泛化性不足的补位需要。 ## 2. 世界模型与具身数据的定位世界模型对现有具身数据金字塔是补充而非替代，核心作用是数据增广，可低成本生成长尾、柔性物体、多SKU场景的泛化数据，解决真机采集成本高周期长的痛点。当前行业仍面临数据供给短板：开源世界模型的真机数据仅一两万小时，远不足二次预训练需求，跨任务、跨机型泛化幻觉问题突出，顶级遥操作数据的力学与力反馈信息难以合成。当前可行路径是对真实样本做变体增广，生成加重建是折中方案，可大幅降低纯生成的幻觉问题。第一人称Ego数据泛化性更强、和真机数据天然对齐，但采集噪声大，增量收益尚不明确。 ## 3. 世界模型的主流技术范式当前纯生成、纯表征、神经-物理混合三条路线未收敛：纯生成可复用现有基建，但无持久状态，长生成易漂移；纯表征推理效率高，但无法输出人可读像素；融合路线已被验证可行，是行业共识方向。世界模型与VLA最终会走向融合：二者只是切入点不同，目前VLA已吸收世界模型的稠密监督思路，世界模型也借用VLM做reward设计，未来概念会逐渐统一。 **当前最被忽略的核心问题是评测**：现有多用视频生成的画质标准评测世界模型，忽略核心的可交互性评测，好的评测可直接作为强化学习奖励函数驱动模型进步。 ## 4. 行业发展展望与格局判断当前世界模型仍处于小圈子讨论阶段，未到出圈节点，仅学会生成世界、预测简单状态变化，尚未达到物理AGI自主推理物理因果的水平。行业最被低估的两个硬骨头：一是模型自进化能力，需要让模型从失败案例中学习实现自我迭代；二是适配长时任务的agentic调度系统，支撑机器人持续运行。三年后行业格局将类似当前语言模型：少数玩家掌握通用世界基模，大量参与者在基模上做垂类精调，物理世界场景复杂度高，垂类专用模型仍有充足生存空间，该判断不受算力成本下降一个数量级影响。

2026-06-18 15:17

世界模型的GPT时刻：距离物理AGI出圈，还有多远？

AI前线

速览

本文来自微信公众号： AI前线，编辑：宇琪，作者：AICon

什么是世界模型？

王飞：世界模型到底是什么？Sora算不算世界模型？OpenAI说它是"物理世界模拟器的雏形"，但也有人说能生成好看的视频和真正理解物理是两件完全不同的事。在各位看来，从"视频生成"到"真正的世界模型"，中间缺的那一环是什么？

朱政：世界模型这个概念从去年开始被讨论得越来越多，尤其是李飞飞教授和杨立昆教授创业之后，他们的公司都跟世界模型有关。从李飞飞最新一篇博客来看，世界模型大概在做三件事。第一是渲染器，指的是视频生成——不管用纯生成还是生成加重建的方式，最终产出内容、影视、游戏。比如World Labs可以根据单张图片创建一个3D或4D世界，你可以在里面自由漫游。一些带camera control的视频生成模型也具备了类似功能。

第二块是仿真器，主要针对强化学习，作为一个仿真环境和agent进行交互，这一块我们也可以认为是世界模型。

第三是现在讨论最热烈的world action model，也就是规划器，它本身可以产生policy、可以产生action。很多人认为它可能是VLA的下一代，或者会和VLA走向融合。现在大家讲的世界模型，我认为主要是这三块，这样划分比较明确，不会把不同的事情混在一起讨论。

王腾飞：Sora是一个很好的视频生成模型，但它很难算世界模型。视频生成和世界模型关注的东西完全不一样。前者关心画面质感、美学、叙事感；后者最核心的能力是可交互性——根据动作指令去影响未来的演变。

Sora视觉效果极好，但它缺少世界状态，所以生成时间一长就会漂移、穿模、违反各种物理规律。这不是模型参数够不够大的工程问题，而是这个范式本身就缺了世界状态这个核心。世界模型一个是要能交互，另一个是需要维护世界状态。

它不只是在拟合像素，而是能识别空间里有几个物体、是什么形状、带有什么物理量。你才能去问它：这东西离我多远、多重、我推它会怎样？世界状态可以是显示的3D形式，也可以是隐空间的feature。交互性，就是区分视频生成和世界模型的那道线。

王飞：世界模型不是新概念，为什么2025到2026年突然变成了最热的方向？

王腾飞：这个概念几十年前就有了，但最近一轮热度是从2023年启动的。两个关键变化。第一是以DiT为代表的生成模型技术的重大突破，扩散模型能从海量互联网数据中学到物理直觉和一些时空动态规律。

第二是大语言模型带来的资源溢出效应——语言模型这一波吸引了海量资金和人才，把算力、infra、数据基建都做到了很高的水平，溢出的资源自然而然流向其它AI模态。这两股力量叠加，把世界模型重新推到了风口上。

朱政：我们23年开始做世界模型，最早切入的是自动驾驶这个垂类。当时自动驾驶从BEV感知到分段式端到端再到VLA，数据需求很明确，但corner case数据的收集极其困难——真实路采成本高、周期不可控，世界模型恰好是解决这个痛点的好方案。

借助开源基模——Stable Diffusion、Stable Video Diffusion——做预训练，再加自动驾驶后训练数据，就能得到一个不错的闭环仿真器或数据生成器。后来随自动驾驶方向逐步收敛，大家的目光转向了具身。具身数据目前远不足以从头预训练一个模型，还得依赖多模态和视频模型的进展。

具身场景现在还没到讨论corner case的阶段，更紧迫的是泛化数据生成和与强化学习结合的混合训练，也就是world action model这条线。VLA最近很火但缺点明显，大家希望用世界模型来补位，目前整体还在探索过程中。

王飞：从需求侧看，驱动力主要是两个。一是数据生成引擎，具身场景数据缺口巨大，互联网数据、仿真数据、真机数据三层金字塔里，世界模型的合成数据是很好的结构性补充。尤其在具身当前的发展阶段，数据是最大的瓶颈。二是具身大脑，VLA从23年到现在进入了落地瓶颈，泛化性不够，没见过场景的成功率偏低。

世界模型从海量互联网视频里学到了千奇百怪的时空模式，天然泛化能力更强，正好弥补VLA的短板，这就是VLA当前满足不了落地需求而世界模型能补位的地方。

王飞：语言模型有ChatGPT这个清晰的milestone，世界模型有没有对应的技术节点？

朱政：语言模型有两个爆点，聊天和Coding，Agent还没形成并驾齐驱的局面。世界模型不管是to C带物理理解的内容生成还是具身场景，都还处在学术界和工业界内部的小圈子里，远没到出圈的时候。

大家心目中的标杆是一个通用世界模型，而不是只能做自动驾驶或只能做具身的垂类模型。现在可能还是处在学术圈和工业界讨论比较多、但大众还没感知到的阶段，朝通用这个目标还需要一些时间。

但今年模型靠数据规模就能学到一定的物理规律，虽然还不够强，但只要它学到了，后续通过强化学习去增强是完全可行的。所以我觉得现在就是一个合适的可以去做的时间窗口。

但像语言模型那样出现"智能涌现"，模型突然自己理解了物理规律之间的深层联系，目前在世界模型上还没观察到。它还处于"学会了生成世界、能预测简单状态变化"的阶段，尚未达到自主理解和推理物理因果的程度。这个物理AGI的milestone还需要大家一起推。

具身数据的结构问题

王飞：行业对具身数据已形成金字塔共识——底层互联网视频、中层仿真数据、顶层遥操作真机数据。世界模型在这三层里分别能做什么、不能做什么？它最大的价值是替代某一层，还是打通各层之间的壁垒？

王飞：世界模型作为数据生成引擎，对金字塔是很好的补充，绝非替代关系。智能驾驶到深水区之后，长尾场景数据采集周期长、成本高，世界模型快速生成场景数据是很好的方案。仿真里最难的是流体模拟和柔性物体模拟，但对世界模型反而更自然，ROI很高。零售场景里海量SKU，真机采集成本高、周期长，世界模型做快速替换和增广就游刃有余。在具身场景下，它的主要作用还是数据内容的增广。

朱政：大家对数据金字塔本身认知比较一致，但虚拟世界模型自身的数据配比应该怎么定，有没有自己的金字塔结构，我们还在探索。目前市面上开源的最大世界模型真机数据大概只有一两万小时，远远不够做高质量的二次预训练，容易过拟合到特定机型或特定场景。

各家的基模收集了几十万甚至上百万小时的数据，但这些能不能无缝移植来训世界模型，还不确定。在数据供给方面，针对特定场景和已知任务做泛化数据生成没问题，甚至可以结合真机做强化学习。但跨任务、跨机型泛化的幻觉还比较严重——换了没见过的机型、不同的自由度配置和机械臂形态，它就暴露了没完全学会物理规律的短板。

王飞：如果说一个训好的世界模型，它可以反过来像给VLA/World Action Model，提供一些什么样的燃料呢？

朱政：现在看起来的话，我们针对特定场景，比如说工业场景或者泛服务场景，因为大概率情况下，VLA在这种场景下只需要做一种任务或者几种任务，而且这一种任务或者几种任务你是提前知道的。所以你可以产生海量的泛化数据，针对某种机型或者某种task而言，这个是没问题的。

甚至更进一步，我们可以基于某些公开的数据集或者自采的数据集，针对某种平台、某几种任务，做一个闭环模拟器，在里边结合你的真机强化学习，结合世界模型加真机做强化学习，这一点也是没有问题的。

但是我们现在看起来，跨任务或者跨机型的泛化可能还是有一些问题，它的幻觉还是比较严重的。比如说换了任务，在训练的时候，所谓OD的场景，或者说训练时没有见过的机型，一种新的机型，它的自由度、它的机械臂可能长得不太一样。在这样的情况下，它可能还是没有完全学会背后的物理规律，还是容易出现比较多的幻觉。这是我们目前观察到的一个现象。

王飞：那您觉得这种幻觉，或者说这种生成数据，真的在现在VLA/World Action Model当中起到一个很大的作用吗？或者说它能够给下游任务提点吗？

朱政：所谓的泛化数据，在集群里边情况还是比较复杂的。你看像最常见的，表观的泛化，比如说颜色、纹理、光照，它其实不影响动作空间，也不影响视角这些变化，它仅仅做这种表观的泛化，这个肯定就非常成熟了，大家也做了非常多的工作。然后第二块，可能更进一步，比如说我要做各种视角的泛化，当然也得益于之前的MVS还有新视角合成的一些成果，现在视角泛化基本上被大家解决了。

当然最难的就是所谓动作的泛化，包括各种反事实的、各种动作空间的组合，包括我让强化学习去探索，不仅要让它去探索正确的轨迹，还要去探索失败的轨迹。失败的轨迹就牵扯到各种因果推理，还有一些反事实的东西，我觉得这一块相对来说还是比较难的。

王腾飞：世界模型的核心价值在于把海量互联网视频知识内化到模型里，去放大仿真和真机数据的价值。传统仿真资产靠手搓，量小，而且和真实世界有明显gap。

王飞：顶层遥操作数据公认质量最高、成本也最贵，世界模型到底能不能合成出这个质量？还是说有些东西在本质上就不可能被合成？

王腾飞：视觉效果可以逼近，物理层面非常困难。人抓一个软包装的瞬间，手指能感受形变和阻力，大脑实时调整力度——这些力学信息摄像头根本记录不了，合成更是另一回事。包覆力反馈和操作者的实时决策链是合成数据很难跨越的障碍。但从头合成难不代表扩充数据的路走不通，对真实样本做变体增广这条路径反而是清晰的。

朱政：生成加重建是目前一个很好的折中探索，重建技术可以大幅弥补甚至规避纯生成的幻觉。纯生成的上限当然更高，通过海量数据scaling理论上能消除幻觉。但重建作为一条中间路径，在解决新视角一致性、大场景探索上更稳健。刚体交互大家解决得比较好了，可变形物体也有了一定进展，流体这类最难的，可能还得回归到结合CG的进展，计算机图形学那边现在也有不少突破。

王腾飞：我们做得比较聚焦，现在只做仿真资产生成，包括场景和3D物体资产，带物理碰撞和材质属性——金属的、透明的、粗糙的、光滑的。生成之后导入仿真引擎，物理仿真的任务交给成熟的物理引擎来处理。

王飞：Ego数据天然携带"意图—动作—结果"这条因果链，是第三视角数据永远无法捕获的。这两种数据在模型能力上会产生什么本质差异？

王腾飞：第一人称学习泛化性更强。不同主体的形状外观各不相同，第三人称视角还要学习主体和背景的相关性，这部分消耗了大量模型能力。第一人称和本体几乎无关，能更纯粹地处理"看到了什么、怎么因果推理"的问题。

朱政：第三人称数据大多从互联网视频中洗出来的，跟互联网数据的分布自然接近。第一人称，不管是头戴、眼镜还是腕戴摄像头，跟真机数据天然对齐，价值明显更高。但采集的麻烦事很多：单目还是双目？带不带IMU？SLAM算法能到什么精度？这些变量决定了数据的噪声水平和可用性，而且噪声会随着数据量的增加等比例放大。

增加数据带来的收益能不能覆盖噪声成本，目前没有明确结论。至于学习范式，数据量足够大的时候隐空间学习上限更高，这很像语言模型界那句"苦涩的教训"，少做人工先验，让模型自己学。但现阶段数据就几十万小时，显示地提取手部和腕部的骨骼关键点还是有现实必要性的。

王飞：期待行业里能有些工作互相指引一下。最近这种高精度多模态异构数据的积累，对行业牵引很关键。你们世界模型的架构是怎么设计的，去学这些异构的具身数据？

朱政：我们现在是拿一个很强的视频生成基模，在上面做第二次预训练，混合自动驾驶数据、异构数据加上一部分真机数据，再针对特定场景做后训练。训练时联合预测未来的action和视频，但会随机mask掉一些生成视频的分支，这样推理的时候可以只出action。我们的WAM大概就长这样。

王腾飞：我们没有针对ego做特殊设计，还是希望世界模型尽可能通用。

王腾飞：长视频生成必须考虑memory机制，前后不能冲突。其实人类空间记忆就是异构的、以自我为中心的，你会记得楼下左转30米有个咖啡店，而不是记经纬度。所以我们用相当local的memory，以agent为中心的局部表示，全局memory反而是用一个比较模糊的单一embedding。

王飞：所以memory在交互世界模型里确实很关键。那前面那个理解模块，现在行业里通用做法是用VLM做前置，编码成token或embedding，它的重要性各位怎么看？

朱政：理解模块很重要。我们做世界模型，不管是生成数据还是World Action Model，都希望能把互联网学到的大量知识继承下来，带到具身或自动驾驶里。这个模块就是我们保留这些知识的一个最大的抓手。

王腾飞：现在理解可能还是单独的，但在多模态领域，生图生视频已经在走向统一理解和生成的模型了，我觉得未来世界模型也会慢慢把理解和生成统一到一个范式里。

王飞：我们也观察到，理解得越好、描述越细致，生成视频和动作交互的质量分数就越高。可能一百字的理解和五百字的细致描述，差距非常大。所以要想把状态预测和视频生成做到一个比较好的水平，理解、生成、预测一体化的框架，未来还是非常有必要的。

世界模型的技术范式

王飞：从生成式、表征式到神经-物理混合，现有这几条技术路线走到今天，你认为它们各自能走多远？有没有哪条路线，你觉得它在范式层面就有天花板——不是工程问题，而是这条路本身走不到「真正理解物理世界」这个目标？

王腾飞：三条路线各有利弊，目前都没有收敛。纯视频生成做的是像素拟合，没有持久状态，生成时长一上去就漂移。JEPA这类表征模型理论上非常优雅合理，如果只运行在机器人内部、不需要给人看，还凑合。但大量应用场景需要输出人眼可读的像素——游戏、短剧、生成内容的质量检查和可解释性。

朱政：我们基本走视频生成路线，可以直接利用现成的视频生成基模和VLA训练数据，基建成熟度和数据可得性都更有优势。杨立昆那条路我们也在探索，它更接近人类认知机制——我们开车或者行动的时候，大脑不会先渲染一帧RGB画面再决策，更多是在隐空间里高效推理。上限可能更高，但现阶段还不能下结论。

王飞：纯视频生成最大的命门是算力消耗，做数据生成引擎可以靠尺度定律慢慢堆，但做具身大脑，需要实时推理来控制机器人，效率瓶颈就很致命了。

朱政：目前比较实用的方案是训练时联合预测action和视频，推理时只输出action，类似VLA的做法，算是一种折中。如果实时视频生成通过蒸馏或原生方案得到解决，这个推理效率的问题就不是根本障碍。

王飞：但折中方案可能丢掉了世界模型相比VLA最大的差异化优势，推理时同步输出状态演变的视频画面，从而能判断任务是成功还是失败。我个人判断，未来大概率走向表征和生成的融合。纯表征式能预测状态但不会渲染外观变化，纯生成式容易穿模且物理理解偏弱。Cosmos 3就是表征、生成、理解一体化的架构，效果很好，说明融合路线是走得通的。

王腾飞：我们已经落地了一个实用方案：用3D重建模型做reward model——给指令生成视频后重建出运动轨迹，和输入指令做对比，通过强化学习反馈去校准模型的指令跟随能力。这也是混合路线在当前阶段的一种实践。

王飞：现在世界模型大多用的是模仿学习，如果用强化学习，会不会带来一些质的飞跃？

王飞：世界模型和VLA是否最终会融合成一体？但融合这件事，是生成式路线能做到、表征式路线能做到，还是只有神经-物理混合路线才能真正实现？跨本体泛化这个目标，在你们押注的技术范式下，路径是什么？

朱政：我非常倾向于会。理想中的那个终极模型，应该既能预测action，又能隐式或显示地预测未来state，可以是RGB空间的state，也可以是隐空间的state，甚至还能像人一样预测reward：你做了这个动作之后，会收到奖励还是惩罚？

现在VLA已经在吸收世界模型的稠密监督和视频监督思路，比如加更丰富的监督信号；世界模型也在用VLM做自动化的reward设计。本质上，做VLA和做世界模型的是同一批人、同一个社区，只是切入点不同。这两个概念会越来越统一，可能今年大家还为这两个名词争论，再过一段时间就不再是话题了。

王飞：殊途同归。一个以语言为核心，一个以视觉为核心，最终都是对世界的建模和状态表征。在一个统一架构下，两者的长处应该能被同时容纳。今年的争论，也许再过一段时间就不再是话题了。

王飞：今天大家都在做世界模型，但行业还没有形成类似MMLU、ImageNet这样的统一评测标准。如果一个模型能够生成逼真的视频，它就算好的世界模型吗？你认为真正有价值的世界模型，应该被哪些能力维度衡量？

王腾飞：最被系统性忽略的维度是可交互性。现在几乎所有人都在用视频生成的标准来评测世界模型，看看画质好不好、细节精不精细。但对世界模型来说，视觉质量未必是第一位的事。可交互性的评测必须在实际交互过程中才能完成：模型能撑多少秒不崩？做出的每个动作是否符合预期和物理规律？没有这类评测，scaling就是盲目的。

目前交互时长大概是分钟级，一两分钟就算很不错了。真正跑出来，需要实时可控加开放世界三个维度同时达标。但好消息是最近已经有不少评测工作开始聚焦这个方向了，虽然到底测什么，是画面不崩还是符合所有物理定律，共识还在形成中。

朱政：世界模型的评测还非常间接。不管是做数据生成、闭环模拟器还是自己出policy，最终都要靠下游任务，比如VLA的精度涨点，来间接证明价值。这个反馈链路长、延迟高，需要大量训练数据和rollout，远不是即时的。这是评测这块天然比较难的地方。

最被低估的挑战与展望

王飞：世界模型领域，有没有一个大家都在回避、但迟早要面对的硬骨头——不是最难的挑战，而是最被低估的那一个？

朱政：最关键的还是自进化。展开讲至少两个方向。一是视频生成的强化学习后训练——打破纯监督学习框架，让模型从失败案例里也提取出有用的信号，实现模型的自我迭代，而不仅仅依赖人类标注的正确轨迹。二是和agentic系统结合——现在的世界模型和VLA都只能执行十几秒的短程任务，要让一个机器人24小时持续工作、随时响应各种指令，上面必须有一套agentic调度层，把各种模型串成一个实时响应、持续运行的完整系统。这可能是比单模型能力提升更迫切的事情。

王腾飞：最被低估的就是评测本身。很多人觉得评测没什么技术含量，但评测维度和模型能力是互为因果的。没有好的评测，你根本不知道模型到底进步在哪里、短板在哪里。反过来说，如果评测维度和指标设计得好，这些东西本身就可以拿来当强化学习的奖励函数，直接驱动模型能力定向提升。

王飞：三年后，世界模型是少数通用大模型通吃，还是场景化专用模型各占山头？如果算力成本再降一个数量级，你的判断会改变吗？

王腾飞：格局应该跟现在的语言模型类似。少数几家做出通用基模型，大量参与者在基模型上面做垂类精调，游戏、内容创作、自动驾驶、机器人，各有各的主场。垂类场景非常丰富，每个细分领域都有自己独特的需求和数据分布。

朱政：垂类模型的量会非常大，物理世界场景的复杂度远超数字世界，自动驾驶和具身的每一个细分领域情况都千差万别。但通用世界模型因为资金投入和人才密度要求极高，最终应该会收敛到少数几款，这个判断即使算力成本再降一个数量级应该也不会改变。

王飞：物理世界的多样性决定了垂类模型会有独立生存空间，尤其工业、物流等特定场景，垂类模型的ROI可能反而更高。通用基模型大概率走向收敛，但通用和垂类的均衡线在哪里，未来变数很大，这是从业者需要持续关注的核心问题。

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定