本文来自微信公众号: AI前线 ,编辑:宇琪,作者:AICon
什么是世界模型?
王飞:世界模型到底是什么?Sora算不算世界模型?OpenAI说它是"物理世界模拟器的雏形",但也有人说能生成好看的视频和真正理解物理是两件完全不同的事。在各位看来,从"视频生成"到"真正的世界模型",中间缺的那一环是什么?
朱政:世界模型这个概念从去年开始被讨论得越来越多,尤其是李飞飞教授和杨立昆教授创业之后,他们的公司都跟世界模型有关。从李飞飞最新一篇博客来看,世界模型大概在做三件事。第一是渲染器,指的是视频生成——不管用纯生成还是生成加重建的方式,最终产出内容、影视、游戏。比如World Labs可以根据单张图片创建一个3D或4D世界,你可以在里面自由漫游。一些带camera control的视频生成模型也具备了类似功能。
第二块是仿真器,主要针对强化学习,作为一个仿真环境和agent进行交互,这一块我们也可以认为是世界模型。
第三是现在讨论最热烈的world action model,也就是规划器,它本身可以产生policy、可以产生action。很多人认为它可能是VLA的下一代,或者会和VLA走向融合。现在大家讲的世界模型,我认为主要是这三块,这样划分比较明确,不会把不同的事情混在一起讨论。
王腾飞:Sora是一个很好的视频生成模型,但它很难算世界模型。视频生成和世界模型关注的东西完全不一样。前者关心画面质感、美学、叙事感;后者最核心的能力是可交互性——根据动作指令去影响未来的演变。
Sora视觉效果极好,但它缺少世界状态,所以生成时间一长就会漂移、穿模、违反各种物理规律。这不是模型参数够不够大的工程问题,而是这个范式本身就缺了世界状态这个核心。世界模型一个是要能交互,另一个是需要维护世界状态。
它不只是在拟合像素,而是能识别空间里有几个物体、是什么形状、带有什么物理量。你才能去问它:这东西离我多远、多重、我推它会怎样?世界状态可以是显示的3D形式,也可以是隐空间的feature。交互性,就是区分视频生成和世界模型的那道线。
王飞:世界模型不是新概念,为什么2025到2026年突然变成了最热的方向?
王腾飞:这个概念几十年前就有了,但最近一轮热度是从2023年启动的。两个关键变化。第一是以DiT为代表的生成模型技术的重大突破,扩散模型能从海量互联网数据中学到物理直觉和一些时空动态规律。
第二是大语言模型带来的资源溢出效应——语言模型这一波吸引了海量资金和人才,把算力、infra、数据基建都做到了很高的水平,溢出的资源自然而然流向其它AI模态。这两股力量叠加,把世界模型重新推到了风口上。
朱政:我们23年开始做世界模型,最早切入的是自动驾驶这个垂类。当时自动驾驶从BEV感知到分段式端到端再到VLA,数据需求很明确,但corner case数据的收集极其困难——真实路采成本高、周期不可控,世界模型恰好是解决这个痛点的好方案。
借助开源基模——Stable Diffusion、Stable Video Diffusion——做预训练,再加自动驾驶后训练数据,就能得到一个不错的闭环仿真器或数据生成器。后来随自动驾驶方向逐步收敛,大家的目光转向了具身。具身数据目前远不足以从头预训练一个模型,还得依赖多模态和视频模型的进展。
具身场景现在还没到讨论corner case的阶段,更紧迫的是泛化数据生成和与强化学习结合的混合训练,也就是world action model这条线。VLA最近很火但缺点明显,大家希望用世界模型来补位,目前整体还在探索过程中。
王飞:从需求侧看,驱动力主要是两个。一是数据生成引擎,具身场景数据缺口巨大,互联网数据、仿真数据、真机数据三层金字塔里,世界模型的合成数据是很好的结构性补充。尤其在具身当前的发展阶段,数据是最大的瓶颈。二是具身大脑,VLA从23年到现在进入了落地瓶颈,泛化性不够,没见过场景的成功率偏低。
世界模型从海量互联网视频里学到了千奇百怪的时空模式,天然泛化能力更强,正好弥补VLA的短板,这就是VLA当前满足不了落地需求而世界模型能补位的地方。
王飞:语言模型有ChatGPT这个清晰的milestone,世界模型有没有对应的技术节点?
朱政:语言模型有两个爆点,聊天和Coding,Agent还没形成并驾齐驱的局面。世界模型不管是to C带物理理解的内容生成还是具身场景,都还处在学术界和工业界内部的小圈子里,远没到出圈的时候。
大家心目中的标杆是一个通用世界模型,而不是只能做自动驾驶或只能做具身的垂类模型。现在可能还是处在学术圈和工业界讨论比较多、但大众还没感知到的阶段,朝通用这个目标还需要一些时间。
但今年模型靠数据规模就能学到一定的物理规律,虽然还不够强,但只要它学到了,后续通过强化学习去增强是完全可行的。所以我觉得现在就是一个合适的可以去做的时间窗口。
但像语言模型那样出现"智能涌现",模型突然自己理解了物理规律之间的深层联系,目前在世界模型上还没观察到。它还处于"学会了生成世界、能预测简单状态变化"的阶段,尚未达到自主理解和推理物理因果的程度。这个物理AGI的milestone还需要大家一起推。
具身数据的结构问题
王飞:行业对具身数据已形成金字塔共识——底层互联网视频、中层仿真数据、顶层遥操作真机数据。世界模型在这三层里分别能做什么、不能做什么?它最大的价值是替代某一层,还是打通各层之间的壁垒?
王飞:世界模型作为数据生成引擎,对金字塔是很好的补充,绝非替代关系。智能驾驶到深水区之后,长尾场景数据采集周期长、成本高,世界模型快速生成场景数据是很好的方案。仿真里最难的是流体模拟和柔性物体模拟,但对世界模型反而更自然,ROI很高。零售场景里海量SKU,真机采集成本高、周期长,世界模型做快速替换和增广就游刃有余。在具身场景下,它的主要作用还是数据内容的增广。
朱政:大家对数据金字塔本身认知比较一致,但虚拟世界模型自身的数据配比应该怎么定,有没有自己的金字塔结构,我们还在探索。目前市面上开源的最大世界模型真机数据大概只有一两万小时,远远不够做高质量的二次预训练,容易过拟合到特定机型或特定场景。
各家的基模收集了几十万甚至上百万小时的数据,但这些能不能无缝移植来训世界模型,还不确定。在数据供给方面,针对特定场景和已知任务做泛化数据生成没问题,甚至可以结合真机做强化学习。但跨任务、跨机型泛化的幻觉还比较严重——换了没见过的机型、不同的自由度配置和机械臂形态,它就暴露了没完全学会物理规律的短板。
王飞:如果说一个训好的世界模型,它可以反过来像给VLA/World Action Model,提供一些什么样的燃料呢?
朱政:现在看起来的话,我们针对特定场景,比如说工业场景或者泛服务场景,因为大概率情况下,VLA在这种场景下只需要做一种任务或者几种任务,而且这一种任务或者几种任务你是提前知道的。所以你可以产生海量的泛化数据,针对某种机型或者某种task而言,这个是没问题的。
甚至更进一步,我们可以基于某些公开的数据集或者自采的数据集,针对某种平台、某几种任务,做一个闭环模拟器,在里边结合你的真机强化学习,结合世界模型加真机做强化学习,这一点也是没有问题的。
但是我们现在看起来,跨任务或者跨机型的泛化可能还是有一些问题,它的幻觉还是比较严重的。比如说换了任务,在训练的时候,所谓OD的场景,或者说训练时没有见过的机型,一种新的机型,它的自由度、它的机械臂可能长得不太一样。在这样的情况下,它可能还是没有完全学会背后的物理规律,还是容易出现比较多的幻觉。这是我们目前观察到的一个现象。
王飞:那您觉得这种幻觉,或者说这种生成数据,真的在现在VLA/World Action Model当中起到一个很大的作用吗?或者说它能够给下游任务提点吗?
朱政:所谓的泛化数据,在集群里边情况还是比较复杂的。你看像最常见的,表观的泛化,比如说颜色、纹理、光照,它其实不影响动作空间,也不影响视角这些变化,它仅仅做这种表观的泛化,这个肯定就非常成熟了,大家也做了非常多的工作。然后第二块,可能更进一步,比如说我要做各种视角的泛化,当然也得益于之前的MVS还有新视角合成的一些成果,现在视角泛化基本上被大家解决了。
当然最难的就是所谓动作的泛化,包括各种反事实的、各种动作空间的组合,包括我让强化学习去探索,不仅要让它去探索正确的轨迹,还要去探索失败的轨迹。失败的轨迹就牵扯到各种因果推理,还有一些反事实的东西,我觉得这一块相对来说还是比较难的。
王腾飞:世界模型的核心价值在于把海量互联网视频知识内化到模型里,去放大仿真和真机数据的价值。传统仿真资产靠手搓,量小,而且和真实世界有明显gap。
王飞:顶层遥操作数据公认质量最高、成本也最贵,世界模型到底能不能合成出这个质量?还是说有些东西在本质上就不可能被合成?
王腾飞:视觉效果可以逼近,物理层面非常困难。人抓一个软包装的瞬间,手指能感受形变和阻力,大脑实时调整力度——这些力学信息摄像头根本记录不了,合成更是另一回事。包覆力反馈和操作者的实时决策链是合成数据很难跨越的障碍。但从头合成难不代表扩充数据的路走不通,对真实样本做变体增广这条路径反而是清晰的。
朱政:生成加重建是目前一个很好的折中探索,重建技术可以大幅弥补甚至规避纯生成的幻觉。纯生成的上限当然更高,通过海量数据scaling理论上能消除幻觉。但重建作为一条中间路径,在解决新视角一致性、大场景探索上更稳健。刚体交互大家解决得比较好了,可变形物体也有了一定进展,流体这类最难的,可能还得回归到结合CG的进展,计算机图形学那边现在也有不少突破。
王腾飞:我们做得比较聚焦,现在只做仿真资产生成,包括场景和3D物体资产,带物理碰撞和材质属性——金属的、透明的、粗糙的、光滑的。生成之后导入仿真引擎,物理仿真的任务交给成熟的物理引擎来处理。
王飞:Ego数据天然携带"意图—动作—结果"这条因果链,是第三视角数据永远无法捕获的。这两种数据在模型能力上会产生什么本质差异?
王腾飞:第一人称学习泛化性更强。不同主体的形状外观各不相同,第三人称视角还要学习主体和背景的相关性,这部分消耗了大量模型能力。第一人称和本体几乎无关,能更纯粹地处理"看到了什么、怎么因果推理"的问题。
朱政:第三人称数据大多从互联网视频中洗出来的,跟互联网数据的分布自然接近。第一人称,不管是头戴、眼镜还是腕戴摄像头,跟真机数据天然对齐,价值明显更高。但采集的麻烦事很多:单目还是双目?带不带IMU?SLAM算法能到什么精度?这些变量决定了数据的噪声水平和可用性,而且噪声会随着数据量的增加等比例放大。
增加数据带来的收益能不能覆盖噪声成本,目前没有明确结论。至于学习范式,数据量足够大的时候隐空间学习上限更高,这很像语言模型界那句"苦涩的教训",少做人工先验,让模型自己学。但现阶段数据就几十万小时,显示地提取手部和腕部的骨骼关键点还是有现实必要性的。
王飞:期待行业里能有些工作互相指引一下。最近这种高精度多模态异构数据的积累,对行业牵引很关键。你们世界模型的架构是怎么设计的,去学这些异构的具身数据?
朱政:我们现在是拿一个很强的视频生成基模,在上面做第二次预训练,混合自动驾驶数据、异构数据加上一部分真机数据,再针对特定场景做后训练。训练时联合预测未来的action和视频,但会随机mask掉一些生成视频的分支,这样推理的时候可以只出action。我们的WAM大概就长这样。
王腾飞:我们没有针对ego做特殊设计,还是希望世界模型尽可能通用。
王腾飞:长视频生成必须考虑memory机制,前后不能冲突。其实人类空间记忆就是异构的、以自我为中心的,你会记得楼下左转30米有个咖啡店,而不是记经纬度。所以我们用相当local的memory,以agent为中心的局部表示,全局memory反而是用一个比较模糊的单一embedding。
王飞:所以memory在交互世界模型里确实很关键。那前面那个理解模块,现在行业里通用做法是用VLM做前置,编码成token或embedding,它的重要性各位怎么看?
朱政:理解模块很重要。我们做世界模型,不管是生成数据还是World Action Model,都希望能把互联网学到的大量知识继承下来,带到具身或自动驾驶里。这个模块就是我们保留这些知识的一个最大的抓手。
王腾飞:现在理解可能还是单独的,但在多模态领域,生图生视频已经在走向统一理解和生成的模型了,我觉得未来世界模型也会慢慢把理解和生成统一到一个范式里。
王飞:我们也观察到,理解得越好、描述越细致,生成视频和动作交互的质量分数就越高。可能一百字的理解和五百字的细致描述,差距非常大。所以要想把状态预测和视频生成做到一个比较好的水平,理解、生成、预测一体化的框架,未来还是非常有必要的。
世界模型的技术范式
王飞:从生成式、表征式到神经-物理混合,现有这几条技术路线走到今天,你认为它们各自能走多远?有没有哪条路线,你觉得它在范式层面就有天花板——不是工程问题,而是这条路本身走不到「真正理解物理世界」这个目标?
王腾飞:三条路线各有利弊,目前都没有收敛。纯视频生成做的是像素拟合,没有持久状态,生成时长一上去就漂移。JEPA这类表征模型理论上非常优雅合理,如果只运行在机器人内部、不需要给人看,还凑合。但大量应用场景需要输出人眼可读的像素——游戏、短剧、生成内容的质量检查和可解释性。
朱政:我们基本走视频生成路线,可以直接利用现成的视频生成基模和VLA训练数据,基建成熟度和数据可得性都更有优势。杨立昆那条路我们也在探索,它更接近人类认知机制——我们开车或者行动的时候,大脑不会先渲染一帧RGB画面再决策,更多是在隐空间里高效推理。上限可能更高,但现阶段还不能下结论。
王飞:纯视频生成最大的命门是算力消耗,做数据生成引擎可以靠尺度定律慢慢堆,但做具身大脑,需要实时推理来控制机器人,效率瓶颈就很致命了。
朱政:目前比较实用的方案是训练时联合预测action和视频,推理时只输出action,类似VLA的做法,算是一种折中。如果实时视频生成通过蒸馏或原生方案得到解决,这个推理效率的问题就不是根本障碍。
王飞:但折中方案可能丢掉了世界模型相比VLA最大的差异化优势,推理时同步输出状态演变的视频画面,从而能判断任务是成功还是失败。我个人判断,未来大概率走向表征和生成的融合。纯表征式能预测状态但不会渲染外观变化,纯生成式容易穿模且物理理解偏弱。Cosmos 3就是表征、生成、理解一体化的架构,效果很好,说明融合路线是走得通的。
王腾飞:我们已经落地了一个实用方案:用3D重建模型做reward model——给指令生成视频后重建出运动轨迹,和输入指令做对比,通过强化学习反馈去校准模型的指令跟随能力。这也是混合路线在当前阶段的一种实践。
王飞:现在世界模型大多用的是模仿学习,如果用强化学习,会不会带来一些质的飞跃?
王飞:世界模型和VLA是否最终会融合成一体?但融合这件事,是生成式路线能做到、表征式路线能做到,还是只有神经-物理混合路线才能真正实现?跨本体泛化这个目标,在你们押注的技术范式下,路径是什么?
朱政:我非常倾向于会。理想中的那个终极模型,应该既能预测action,又能隐式或显示地预测未来state,可以是RGB空间的state,也可以是隐空间的state,甚至还能像人一样预测reward:你做了这个动作之后,会收到奖励还是惩罚?
现在VLA已经在吸收世界模型的稠密监督和视频监督思路,比如加更丰富的监督信号;世界模型也在用VLM做自动化的reward设计。本质上,做VLA和做世界模型的是同一批人、同一个社区,只是切入点不同。这两个概念会越来越统一,可能今年大家还为这两个名词争论,再过一段时间就不再是话题了。
王飞:殊途同归。一个以语言为核心,一个以视觉为核心,最终都是对世界的建模和状态表征。在一个统一架构下,两者的长处应该能被同时容纳。今年的争论,也许再过一段时间就不再是话题了。
王飞:今天大家都在做世界模型,但行业还没有形成类似MMLU、ImageNet这样的统一评测标准。如果一个模型能够生成逼真的视频,它就算好的世界模型吗?你认为真正有价值的世界模型,应该被哪些能力维度衡量?
王腾飞:最被系统性忽略的维度是可交互性。现在几乎所有人都在用视频生成的标准来评测世界模型,看看画质好不好、细节精不精细。但对世界模型来说,视觉质量未必是第一位的事。可交互性的评测必须在实际交互过程中才能完成:模型能撑多少秒不崩?做出的每个动作是否符合预期和物理规律?没有这类评测,scaling就是盲目的。
目前交互时长大概是分钟级,一两分钟就算很不错了。真正跑出来,需要实时可控加开放世界三个维度同时达标。但好消息是最近已经有不少评测工作开始聚焦这个方向了,虽然到底测什么,是画面不崩还是符合所有物理定律,共识还在形成中。
朱政:世界模型的评测还非常间接。不管是做数据生成、闭环模拟器还是自己出policy,最终都要靠下游任务,比如VLA的精度涨点,来间接证明价值。这个反馈链路长、延迟高,需要大量训练数据和rollout,远不是即时的。这是评测这块天然比较难的地方。
最被低估的挑战与展望
王飞:世界模型领域,有没有一个大家都在回避、但迟早要面对的硬骨头——不是最难的挑战,而是最被低估的那一个?
朱政:最关键的还是自进化。展开讲至少两个方向。一是视频生成的强化学习后训练——打破纯监督学习框架,让模型从失败案例里也提取出有用的信号,实现模型的自我迭代,而不仅仅依赖人类标注的正确轨迹。二是和agentic系统结合——现在的世界模型和VLA都只能执行十几秒的短程任务,要让一个机器人24小时持续工作、随时响应各种指令,上面必须有一套agentic调度层,把各种模型串成一个实时响应、持续运行的完整系统。这可能是比单模型能力提升更迫切的事情。
王腾飞:最被低估的就是评测本身。很多人觉得评测没什么技术含量,但评测维度和模型能力是互为因果的。没有好的评测,你根本不知道模型到底进步在哪里、短板在哪里。反过来说,如果评测维度和指标设计得好,这些东西本身就可以拿来当强化学习的奖励函数,直接驱动模型能力定向提升。
王飞:三年后,世界模型是少数通用大模型通吃,还是场景化专用模型各占山头?如果算力成本再降一个数量级,你的判断会改变吗?
王腾飞:格局应该跟现在的语言模型类似。少数几家做出通用基模型,大量参与者在基模型上面做垂类精调,游戏、内容创作、自动驾驶、机器人,各有各的主场。垂类场景非常丰富,每个细分领域都有自己独特的需求和数据分布。
朱政:垂类模型的量会非常大,物理世界场景的复杂度远超数字世界,自动驾驶和具身的每一个细分领域情况都千差万别。但通用世界模型因为资金投入和人才密度要求极高,最终应该会收敛到少数几款,这个判断即使算力成本再降一个数量级应该也不会改变。
王飞:物理世界的多样性决定了垂类模型会有独立生存空间,尤其工业、物流等特定场景,垂类模型的ROI可能反而更高。通用基模型大概率走向收敛,但通用和垂类的均衡线在哪里,未来变数很大,这是从业者需要持续关注的核心问题。
