2026-06-01 17:39

世界模型第一次有了“存档”，VAST发布Project Eden

机器之心

本文来自微信公众号：机器之心，编辑：陈陈，作者：关注AI的，原文标题：《世界模型第一次有了「存档」！VAST发布Project Eden》

过去一年，世界模型成了AI圈最热的词之一。

越来越多机构开始宣称自家模型能够模拟世界，用户输入一句话，模型就能生成一段连续视频；给定一个动作或镜头，画面里的人物、场景和物体也能随之运动。在很多人看来，AI似乎已经具备了某种创造世界的能力。

但仔细想想，生成一段看起来连贯的视频，真的等于构建了一个世界吗？

今天很多所谓世界模型，本质上仍然更接近视频预测器。它们擅长根据历史画面推测下一帧，根据输入动作生成一小段视觉结果，但世界状态本身并没有被独立维护。换句话说，模型看到的是一串像素，而不是一个可以长期存在、被多人同时进入、可以被动作持续改变的世界。

这就带来一个根本性局限：当一个物体离开镜头，它在模型内部是否还存在？当用户转身再回来，场景是否还能保持一致？当多个玩家从不同视角进入同一个空间，他们看到的是否真的是同一个世界……

如果这些问题不能解决，这些所谓的世界模型，仍然只是像世界的视频，而不是真正的世界。

我们先看几个demo，直观感受一下。

世界模型不能只是「会动的视频」

要理解Project Eden的独特性，我们首先需要看清当前行业的主流路径及其内在局限。当下被广泛冠以世界模型之名的技术方案，大致可以分为两类。

第一类是动作条件视频生成。

这类模型通常根据文本、图像、动作指令或相机轨迹，生成一段连续视频。优势是视觉效果直观，生成结果容易被用户理解，也能快速展示出一定的交互感。

但问题在于，这类模型本质上仍然是对2D像素轨迹的预测。世界中发生了什么、物体在哪里、状态如何变化，这些信息往往被隐式压缩在最近几帧画面里。

一旦物体离开相机视野，模型并没有一个独立的「世界状态」去保存它。等镜头重新转回来时，模型只能根据历史上下文重新生成，或者说重新「幻想」这个物体应该是什么样子、在哪里、处于什么状态。

这也是为什么很多视频生成模型在短时间内看起来很连贯，但一旦拉长时间、切换视角，或者引入复杂交互，就容易出现物体消失、结构变形、前后逻辑不一致等问题。

第二类是静态3D场景生成。

这类模型能够生成可供游览的三维空间，相比单目视频生成，它们确实更接近「空间」本身。但如果只有一个静态空间，而没有时间维度、物理逻辑和状态转移机制，也很难称之为真正的世界模型。

一个真正有用的世界，不只是能被看见，还应该能被改变、持续运行、支持多个用户或多个智能体同时进入。

因此，VAST对世界模型的判断很明确：一套合格的通用世界模型，至少要同时解决两个核心问题。

第一，世界当下的客观状态是什么；
第二，这个状态如何随着动作、时间和交互持续演化。

只有同时具备这两点，世界模型才可能从「生成一段内容」走向「生成一个可交互环境」。

Project Eden：一次架构级的重新定义

Project Eden最关键的架构选择，是将底层状态推演与视觉呈现进行原生解耦。

在传统视频生成模型中，状态和画面是高度耦合的。模型看到的是像素，预测的也是像素。世界中有什么、物体如何变化、用户动作产生了什么影响，这些都隐含在视频帧序列里。

Project Eden的思路则不同：他们不是把空间、事件、视角和视觉外观全部塞进像素历史里，而是把「世界本身」和「世界看起来的样子」进行了分拆。

第一层是结构化状态层，也就是这套系统的真正地基。

该层是一个跨时间持续存在、可以进行动作更新、可被任意相机位置查询的全局结构化表征。它并非庞大的4D点云（那会带来不可接受的计算成本），而是一种紧凑的、兼顾效率与语义丰富性的隐式表征。这一层负责回答「世界里有什么、发生了什么」，它是世界的客观基底，独立于任何观察者的视角而存在。

第二层是条件接口层，作为状态与渲染之间的转换枢纽。

这一层的功能是将底层的全局世界状态，按照特定相机位置和观察视角，转化为适合生成任务使用的局部条件约束，包括语义信息、几何线索、局部事件变化等中间表征。所有视角的渲染都从同一个底层状态中提取条件，这从物理机制上保证了多视角之间的一致性：不同玩家看到的是同一个世界的不同窗口，而非各自独立的像素历史。

第三层是生成式渲染层，在底层状态与中间约束的双重指引下，负责生成精细化的视觉画面。

最上层的渲染模型不再需要承担猜测画面结构的责任，因为结构信息已经由底层状态提供。渲染器专注于自己真正擅长的部分：在给定结构约束的前提下，补全纹理、光照、材质和高频的局部动态细节，生成高保真的视觉画面。

这三层架构改变了世界模型的基本组织方式。状态不再依附于画面，而是作为一个稳定、可查询、可演化的底座独立存在；渲染也不再承担全部逻辑推演，而是根据当前状态、视角和动作条件按需生成画面。

因此，Project Eden不是在传统视频生成路径上继续预测下一帧，而是把问题改写为：先推演世界下一刻的状态，再从这个状态中生成用户此刻看到的画面。前者更像视频续写，后者才真正接近世界模拟。

解锁三种系统级能力：持久化、可复用、原生多智能体并发

架构的不同，最终体现在能力边界的本质差异上。Project Eden的三层解耦架构，自然解锁了一系列传统视频生成方案无法触及的系统级能力。

Project Eden生成的多角色协同场景

环境长程持久化，是其中最直观、也最颠覆性的一项。

在Project Eden中，物体离开相机视野，并不意味着它从世界中消失。它依然存在于底层状态里，并继续按照世界逻辑运转。当用户转身、离开、再回来时，系统查询的是同一个底层世界状态（比如当玩家转身离开，再转回来，那棵树还在那里），而不是根据历史视频帧重新生成一个相似画面。

这意味着，世界可以拥有真正意义上的长程记忆。用户不再只是观看一段一次性的生成视频，而是进入一个会持续存在的环境。

场景自由复用与确定性控制，是第二项核心能力。

传统视频生成是一次性的时间线：生成过了，历史就固定了，无法回退和分支。但在解耦架构中，底层状态是可以被读写和干预的。用户在场景中进行的破坏、建造、改变，被真实写入底层状态；后续进入同一场景的其他用户，会看到完全一致的世界状态。这不再是每次生成一段新视频，而是所有人共享同一个持续演化的世界。

例如，一个用户在场景中破坏了某个物体、移动了某个建筑、改变了某片区域的状态，这些变化会真实留存在世界里。后续进入同一场景的其他用户，也能看到一致的结果。

这也让生成内容从一次性视频，变成了可复用、可编辑、可持续运营的互动空间。

第三是原生多人和多智能体并发交互。

对于传统视频世界模型来说，多玩家是一个非常困难的问题。因为每个玩家都有自己的视角、动作和画面历史，如果每一路都依赖单独的视频上下文来生成，算力成本和一致性维护都会迅速失控。

在解耦架构中，底层状态只有一份，被所有智能体共享；渲染层根据各自的位置和视角独立生成画面，计算成本从指数级变为线性级。当N个玩家同时在线，系统只需维护一个底层状态和N路渲染，而不是N套完全独立的生成系统。这不只是性能优化，更是商业上大规模落地的先决条件。

数据策略：3D生成真正难啃的硬骨头

Project Eden背后的数据构建逻辑，同样值得深究。

VAST提出了一套原创的分层数据策略，其核心是双态对齐数据的概念：只有底层推演态（隐式结构与逻辑）与视觉渲染态（高保真视频画面）完美对齐的数据，才是训练世界模型真正的原生数据。

为此，VAST在数据端部署了两层策略，L1为海量互联网视频自标注，L2为引擎合成数据。

在第一层，VAST依托自身长期积累的3D基础模型能力，对海量无标注互联网2D视频进行反向解构，提取深度、相机位姿与几何轨迹，将单态视频提炼为双态数据。这一方式充分利用了互联网视频的多样性，赋予模型对各类真实世界环境的强泛化能力。

在第二层，VAST利用游戏引擎天然具备双态运行特征的优势，低成本批量生成带有绝对精准3D状态标注、动作指令以及环境变化的配对数据，确保模型学到严密的物理演变与控制逻辑。

这种「互联网数据泛化+引擎数据精准化」的组合，在覆盖广度与逻辑精度之间取得了很好的平衡，既不放弃对真实世界分布的学习，也不依赖单一的合成数据来支撑物理逻辑。

不止内容生成：Project Eden的更大想象空间

Project Eden指向的，并不只是一个更强的3D生成工具，而是下一代互动内容的底层基础设施。

过去，3D内容生产的门槛非常高。一个可玩、可交互、可多人进入的世界，通常需要美术、建模、动画、关卡设计、物理引擎、网络同步等复杂流程。生成式AI已经显著降低了3D资产生成的门槛，但单个模型、单个场景、单段动画，都还不是一个真正可运行的世界。

VAST真正想解决的，是这些内容如何被组织进一个稳定、持续、可交互的世界系统之中。

这也意味着，Project Eden面向的不只是专业游戏开发者。它可以服务普通创作者、虚拟内容社区、社交空间、AI原生游戏，以及未来大量由自然语言驱动的互动内容生产需求。

但从更长远的角度看，Project Eden的潜力可能不止于内容消费。

因为它维护的是一个稳定的底层世界状态，而不是一次性生成的视频画面，这使它天然适合作为通用人工智能的世界底座。对于智能体来说，关键从来不只是看到逼真的画面，而是环境能否按照一致的规则响应动作、保留变化并持续演化。

因此，Project Eden的价值不只是把3D生成推进到交互内容阶段，更在于为世界规则学习、仿真模拟、具身智能、多智能体协同研究提供一个可持续运行的环境。相比纯视频模型，它更接近一个可以被反复进入、持续实验、不断积累交互经验的世界底座。

从这个意义上说，VAST要做的不是再造一个视频生成模型，而是试图搭建下一代互动内容和通用人工智能共同需要的基础设施：一个稳定、有状态、可演化、可被智能体长期训练和探索的生成式世界。

结语

当然，通往真正通用的世界模拟器还很长，Project Eden目前更像是确立了一条重要的技术路径：世界模型的未来，不只是让AI更会画世界，而是让AI开始学会维护一个世界。

当世界模型生成的内容不再只是画面，而成为一个可以持续存在、被反复进入、还能被改变的系统，AI内容生成、游戏、空间计算、机器人训练和智能体平台之间的边界，也会随之被重新打开。

AI创投日报频道: 前沿科技

机器之心

这里本来有条个人简介

认证作者

已在虎嗅发表 447 篇文章

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定