Google DeepMind推出「Project Genie」世界模型，通过AI实时生成交互式虚拟环境，结合物理模拟与语言理解，为AGI发展和游戏/教育等应用开辟新路径，尽管目前存在时长限制与技术不成熟问题。 --- ## 1. Genie 3：AI驱动的「世界模拟器」 - **技术构成**：由Nano Banana Pro（图像控制）、Gemini（语言理解）和Genie 3（物理模拟）组成，后者通过海量视频学习重力等物理规则，无需编程公式。 - **核心机制**：模拟人类「做梦」过程，生成可交互的沉浸式环境，用户可实时操控角色（如WASD键移动）并动态生成场景。 - **当前限制**：单次体验仅60秒，超时会导致画面逻辑崩坏，且计算成本极高。 --- ## 2. 从游戏到AGI的跨越式应用 - **游戏创作革命**：用户通过上传图片+文字指令（如「沙漠场景」）即可生成个性化游戏世界，马斯克「几分钟生成《GTA6》」的预言或成现实。 - **AGI训练场**：解决数据枯竭与机器人具身智能难题，通过无限合成数据（如模拟十亿个厨房）让AI积累物理交互经验。 - **教育与医疗潜力**：例如生成「蜘蛛房间」辅助脱敏治疗，或构建历史场景增强教学体验。 --- ## 3. 技术现状与用户反馈 - **体验优缺点**：网友实测存在延迟（如外星球驾驶卡顿）、预设内容限制，但物理模拟的70%完成度已令人惊艳。 - **对比传统技术**：与代码游戏引擎不同，Genie采用「实时视频生成」路径，未来可能与之分庭抗礼。 - **开发团队坦承**：早期版本物理规则不精准，穿模/轨迹异常频发，需进一步优化。 --- ## 4. 行业影响与未来展望 - **2026年爆发点**：VentureTwins预测世界模型技术将迎来井喷，Genie或成为关键推动者。 - **超越Sora的潜力**：文章认为Genie而非视频生成模型Sora，更可能实现「世界不存在了」的虚拟现实颠覆。 - **开源生态补充**：如LingBot-VA模型，通过动作序列推演提升机器人实操能力（如叠衣物、拆快递）。

2026-01-30 17:18

马斯克真没吹牛，世界模型Genie3一键打造GTA6不是梦

AppSo

速览

本文来自微信公众号： APPSO ，作者：发现明日产品的，原文标题：《马斯克真没吹牛！世界模型 Genie 3 一键打造 GTA6 不是梦》

AI热点一个接一个，大家光顾着看热闹，真正的王炸反而容易被错过。

就在今天凌晨，Google DeepMind推出了打磨已久的新项目：Project Genie。这不单是一个好玩的AI工具，更是Google通往通用人工智能（AGI）的重要一步：

一个真正的「世界模型」实验原型。

目前，Project Genie已经向美国地区18岁及以上的Google AI Ultra订阅用户开放使用。

首先我们要搞清楚一个概念，Project Genie生成的本质上是一个实时渲染的交互环境。它的技术底座由三部分组成：负责图像控制的Nano Banana Pro、负责理解语言指令的Gemini模型，以及负责物理反馈的Genie 3。

前两者我们都比较熟悉，无需赘述，但Genie 3又该怎么理解呢？

简单来说，它的机制和人类做梦的原理很像。

我们在做梦时，大脑会构建一个包含视听触觉的虚拟世界。虽然梦里的逻辑有时会跳跃，但沉浸感很强。Genie其实就是让计算机学会「做梦」，并且允许用户进入这个梦境进行互动。

此外，与ChatGPT这类基于文本统计规律的模型不同，Genie 3本质上是一个「物理世界模型」。它虽然没学过物理公式，但通过观看几百万次物体运动的视频，自己「学会」了重力、惯性这些物理规则。

体验Project Genie的方式也非常简单。

Google AI产品宣传委员Josh Woodward就演示了全过程：他先把自己的照片转换成复古游戏风格的角色，然后上传到Genie，输入「沙漠场景」和角色描述。

点击生成后，他就能以牛仔的身份在沙漠里自由探索了。

为了让控制更精准，用户还可以在进入前预览环境，并调整视角。点击开始后，当你按下键盘方向键（WASD），系统会实时预测并生成前方的路径和场景。

整个过程就跟玩游戏一样，有所不同的是，你不仅是观众，更是这个世界的导演。

不过，作为一个还在开发中的实验模型，Project Genie也有明显短板，比如每次只能玩60秒。在接受的采访播客中，Google开发团队解释说，时间太长会导致画面逻辑崩坏，产生幻觉，而且实时生成的计算成本极高。

🔗https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=1s

因此，为了平衡体验和成本，目前的单次探索被限制在1分钟内。

当然，如果你玩腻了沙漠，可以随时修改指令，把场景变成赛博城市，而角色的动作逻辑依然会保留。前阵子马斯克在社交平台上表示，AI有可能让普通人几分钟内生成《GTA6》。

VentureTwins也认为，2026年将是世界模型的爆发之年。Project Genie这种「实时视频生成」的技术路径，未来可能会和基于代码的传统游戏引擎分庭抗礼。

有了Project Genie，这些判断似乎听起来也不那么遥远了。

图片来自@AngryTomtweets🔗https://x.com/AngryTomtweets/status/2016986111927865430

在驾驶直升机时，左下角的地图还会实时更新。

图片来自@fofrAI🔗https://x.com/fofrAI/status/2016936855607136506

网友@yrzhe_top试玩后则反馈称，他在外星球开车「兜风」时发现，没有宣传视频那么流畅，有些延迟，自定义提示也没生效，只能用官方预设内容。

Google开发团队也承认，目前Genie 3处于早期阶段，物理规律模拟得还不够准确，穿模或轨迹怪异的情况常有发生。不过@yrzhe_top也表示，虽然它只做到了承诺的七成，但这七成已经足够让人惊艳。

图片来自@jen_w1n🔗https://x.com/jen\_w1n/status/2016929094517088416

当然，如果只是为了做一个高配版的《我的世界》，Google显然不需要动用那么多资源。Project Genie的真正野心在于解决AI通往AGI路上的最大拦路虎，即数据枯竭与具身智能瓶颈。

是的，互联网上的高质量文本数据快被吃光了，且机器人无法通过阅读百科全书学会洗碗，它需要肌肉记忆和物理反馈。

然而，现实中获取机器人失败数据的成本极高，但Genie可以作为一个无限的合成数据生成器，模拟出十亿个不同的厨房、仓库或外星地表，让机器人在里面积累「肌肉记忆」，学会了再应用到现实中。

类似的还有蚂蚁灵波今天开源的LingBot-VA模型，它能在生成画面的同时推演动作序列，让机器人像人一样「边想边做」。制作早餐、拾取螺丝、拆快递、叠衣物、叠裤子的能力都有所长进。

此外，Google开发团队在访谈中还畅想了更具人文关怀的应用场景，例如心理治疗与教育。

家长可以利用Genie生成一个「满是蜘蛛的房间」，在一个绝对安全且可控的虚拟环境下帮助孩子进行脱敏练习。或者在历史课上，直接生成一个18世纪的巴黎街道让学生亲历其境。

尽管现在的Project Genie还有画质粗糙、时长短、延迟高以及无法多人联机等问题，但它确实推开了那扇通往物理现实模拟的大门。

回头看2024年那句「世界不存在了」，最后让它成真的，估计不是Sora，而是Genie。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP