本文来自微信公众号: 机器之心 ,编辑:陈陈,作者:关注AI的,原文标题:《世界模型第一次有了「存档」!VAST发布Project Eden》
过去一年,世界模型成了AI圈最热的词之一。
越来越多机构开始宣称自家模型能够模拟世界,用户输入一句话,模型就能生成一段连续视频;给定一个动作或镜头,画面里的人物、场景和物体也能随之运动。在很多人看来,AI似乎已经具备了某种创造世界的能力。
但仔细想想,生成一段看起来连贯的视频,真的等于构建了一个世界吗?
今天很多所谓世界模型,本质上仍然更接近视频预测器。它们擅长根据历史画面推测下一帧,根据输入动作生成一小段视觉结果,但世界状态本身并没有被独立维护。换句话说,模型看到的是一串像素,而不是一个可以长期存在、被多人同时进入、可以被动作持续改变的世界。
这就带来一个根本性局限:当一个物体离开镜头,它在模型内部是否还存在?当用户转身再回来,场景是否还能保持一致?当多个玩家从不同视角进入同一个空间,他们看到的是否真的是同一个世界……
如果这些问题不能解决,这些所谓的世界模型,仍然只是像世界的视频,而不是真正的世界。
我们先看几个demo,直观感受一下。
世界模型不能只是「会动的视频」
要理解Project Eden的独特性,我们首先需要看清当前行业的主流路径及其内在局限。当下被广泛冠以世界模型之名的技术方案,大致可以分为两类。
第一类是动作条件视频生成。
这类模型通常根据文本、图像、动作指令或相机轨迹,生成一段连续视频。优势是视觉效果直观,生成结果容易被用户理解,也能快速展示出一定的交互感。
但问题在于,这类模型本质上仍然是对2D像素轨迹的预测。世界中发生了什么、物体在哪里、状态如何变化,这些信息往往被隐式压缩在最近几帧画面里。
一旦物体离开相机视野,模型并没有一个独立的「世界状态」去保存它。等镜头重新转回来时,模型只能根据历史上下文重新生成,或者说重新「幻想」这个物体应该是什么样子、在哪里、处于什么状态。
这也是为什么很多视频生成模型在短时间内看起来很连贯,但一旦拉长时间、切换视角,或者引入复杂交互,就容易出现物体消失、结构变形、前后逻辑不一致等问题。
第二类是静态3D场景生成。
这类模型能够生成可供游览的三维空间,相比单目视频生成,它们确实更接近「空间」本身。但如果只有一个静态空间,而没有时间维度、物理逻辑和状态转移机制,也很难称之为真正的世界模型。
一个真正有用的世界,不只是能被看见,还应该能被改变、持续运行、支持多个用户或多个智能体同时进入。
因此,VAST对世界模型的判断很明确:一套合格的通用世界模型,至少要同时解决两个核心问题。
第一,世界当下的客观状态是什么;
第二,这个状态如何随着动作、时间和交互持续演化。
只有同时具备这两点,世界模型才可能从「生成一段内容」走向「生成一个可交互环境」。
Project Eden:一次架构级的重新定义
Project Eden最关键的架构选择,是将底层状态推演与视觉呈现进行原生解耦。
在传统视频生成模型中,状态和画面是高度耦合的。模型看到的是像素,预测的也是像素。世界中有什么、物体如何变化、用户动作产生了什么影响,这些都隐含在视频帧序列里。
Project Eden的思路则不同:他们不是把空间、事件、视角和视觉外观全部塞进像素历史里,而是把「世界本身」和「世界看起来的样子」进行了分拆。
第一层是结构化状态层,也就是这套系统的真正地基。
该层是一个跨时间持续存在、可以进行动作更新、可被任意相机位置查询的全局结构化表征。它并非庞大的4D点云(那会带来不可接受的计算成本),而是一种紧凑的、兼顾效率与语义丰富性的隐式表征。这一层负责回答「世界里有什么、发生了什么」,它是世界的客观基底,独立于任何观察者的视角而存在。
第二层是条件接口层,作为状态与渲染之间的转换枢纽。
这一层的功能是将底层的全局世界状态,按照特定相机位置和观察视角,转化为适合生成任务使用的局部条件约束,包括语义信息、几何线索、局部事件变化等中间表征。所有视角的渲染都从同一个底层状态中提取条件,这从物理机制上保证了多视角之间的一致性:不同玩家看到的是同一个世界的不同窗口,而非各自独立的像素历史。
第三层是生成式渲染层,在底层状态与中间约束的双重指引下,负责生成精细化的视觉画面。
最上层的渲染模型不再需要承担猜测画面结构的责任,因为结构信息已经由底层状态提供。渲染器专注于自己真正擅长的部分:在给定结构约束的前提下,补全纹理、光照、材质和高频的局部动态细节,生成高保真的视觉画面。
这三层架构改变了世界模型的基本组织方式。状态不再依附于画面,而是作为一个稳定、可查询、可演化的底座独立存在;渲染也不再承担全部逻辑推演,而是根据当前状态、视角和动作条件按需生成画面。
因此,Project Eden不是在传统视频生成路径上继续预测下一帧,而是把问题改写为:先推演世界下一刻的状态,再从这个状态中生成用户此刻看到的画面。前者更像视频续写,后者才真正接近世界模拟。
解锁三种系统级能力:持久化、可复用、原生多智能体并发
架构的不同,最终体现在能力边界的本质差异上。Project Eden的三层解耦架构,自然解锁了一系列传统视频生成方案无法触及的系统级能力。
Project Eden生成的多角色协同场景
环境长程持久化,是其中最直观、也最颠覆性的一项。
在Project Eden中,物体离开相机视野,并不意味着它从世界中消失。它依然存在于底层状态里,并继续按照世界逻辑运转。当用户转身、离开、再回来时,系统查询的是同一个底层世界状态(比如当玩家转身离开,再转回来,那棵树还在那里),而不是根据历史视频帧重新生成一个相似画面。
这意味着,世界可以拥有真正意义上的长程记忆。用户不再只是观看一段一次性的生成视频,而是进入一个会持续存在的环境。
场景自由复用与确定性控制,是第二项核心能力。
传统视频生成是一次性的时间线:生成过了,历史就固定了,无法回退和分支。但在解耦架构中,底层状态是可以被读写和干预的。用户在场景中进行的破坏、建造、改变,被真实写入底层状态;后续进入同一场景的其他用户,会看到完全一致的世界状态。这不再是每次生成一段新视频,而是所有人共享同一个持续演化的世界。
例如,一个用户在场景中破坏了某个物体、移动了某个建筑、改变了某片区域的状态,这些变化会真实留存在世界里。后续进入同一场景的其他用户,也能看到一致的结果。
这也让生成内容从一次性视频,变成了可复用、可编辑、可持续运营的互动空间。
第三是原生多人和多智能体并发交互。
对于传统视频世界模型来说,多玩家是一个非常困难的问题。因为每个玩家都有自己的视角、动作和画面历史,如果每一路都依赖单独的视频上下文来生成,算力成本和一致性维护都会迅速失控。
在解耦架构中,底层状态只有一份,被所有智能体共享;渲染层根据各自的位置和视角独立生成画面,计算成本从指数级变为线性级。当N个玩家同时在线,系统只需维护一个底层状态和N路渲染,而不是N套完全独立的生成系统。这不只是性能优化,更是商业上大规模落地的先决条件。
数据策略:3D生成真正难啃的硬骨头
Project Eden背后的数据构建逻辑,同样值得深究。
VAST提出了一套原创的分层数据策略,其核心是双态对齐数据的概念:只有底层推演态(隐式结构与逻辑)与视觉渲染态(高保真视频画面)完美对齐的数据,才是训练世界模型真正的原生数据。
为此,VAST在数据端部署了两层策略,L1为海量互联网视频自标注,L2为引擎合成数据。
在第一层,VAST依托自身长期积累的3D基础模型能力,对海量无标注互联网2D视频进行反向解构,提取深度、相机位姿与几何轨迹,将单态视频提炼为双态数据。这一方式充分利用了互联网视频的多样性,赋予模型对各类真实世界环境的强泛化能力。
在第二层,VAST利用游戏引擎天然具备双态运行特征的优势,低成本批量生成带有绝对精准3D状态标注、动作指令以及环境变化的配对数据,确保模型学到严密的物理演变与控制逻辑。
这种「互联网数据泛化+引擎数据精准化」的组合,在覆盖广度与逻辑精度之间取得了很好的平衡,既不放弃对真实世界分布的学习,也不依赖单一的合成数据来支撑物理逻辑。
不止内容生成:Project Eden的更大想象空间
Project Eden指向的,并不只是一个更强的3D生成工具,而是下一代互动内容的底层基础设施。
过去,3D内容生产的门槛非常高。一个可玩、可交互、可多人进入的世界,通常需要美术、建模、动画、关卡设计、物理引擎、网络同步等复杂流程。生成式AI已经显著降低了3D资产生成的门槛,但单个模型、单个场景、单段动画,都还不是一个真正可运行的世界。
VAST真正想解决的,是这些内容如何被组织进一个稳定、持续、可交互的世界系统之中。
这也意味着,Project Eden面向的不只是专业游戏开发者。它可以服务普通创作者、虚拟内容社区、社交空间、AI原生游戏,以及未来大量由自然语言驱动的互动内容生产需求。
但从更长远的角度看,Project Eden的潜力可能不止于内容消费。
因为它维护的是一个稳定的底层世界状态,而不是一次性生成的视频画面,这使它天然适合作为通用人工智能的世界底座。对于智能体来说,关键从来不只是看到逼真的画面,而是环境能否按照一致的规则响应动作、保留变化并持续演化。
因此,Project Eden的价值不只是把3D生成推进到交互内容阶段,更在于为世界规则学习、仿真模拟、具身智能、多智能体协同研究提供一个可持续运行的环境。相比纯视频模型,它更接近一个可以被反复进入、持续实验、不断积累交互经验的世界底座。
从这个意义上说,VAST要做的不是再造一个视频生成模型,而是试图搭建下一代互动内容和通用人工智能共同需要的基础设施:一个稳定、有状态、可演化、可被智能体长期训练和探索的生成式世界。
结语
当然,通往真正通用的世界模拟器还很长,Project Eden目前更像是确立了一条重要的技术路径:世界模型的未来,不只是让AI更会画世界,而是让AI开始学会维护一个世界。
当世界模型生成的内容不再只是画面,而成为一个可以持续存在、被反复进入、还能被改变的系统,AI内容生成、游戏、空间计算、机器人训练和智能体平台之间的边界,也会随之被重新打开。
