Google DeepMind推出「Project Genie」世界模型,通过AI实时生成交互式虚拟环境,结合物理模拟与语言理解,为AGI发展和游戏/教育等应用开辟新路径,尽管目前存在时长限制与技术不成熟问题。 --- ## 1. Genie 3:AI驱动的「世界模拟器」 - **技术构成**:由Nano Banana Pro(图像控制)、Gemini(语言理解)和Genie 3(物理模拟)组成,后者通过海量视频学习重力等物理规则,无需编程公式。 - **核心机制**:模拟人类「做梦」过程,生成可交互的沉浸式环境,用户可实时操控角色(如WASD键移动)并动态生成场景。 - **当前限制**:单次体验仅60秒,超时会导致画面逻辑崩坏,且计算成本极高。 --- ## 2. 从游戏到AGI的跨越式应用 - **游戏创作革命**:用户通过上传图片+文字指令(如「沙漠场景」)即可生成个性化游戏世界,马斯克「几分钟生成《GTA6》」的预言或成现实。 - **AGI训练场**:解决数据枯竭与机器人具身智能难题,通过无限合成数据(如模拟十亿个厨房)让AI积累物理交互经验。 - **教育与医疗潜力**:例如生成「蜘蛛房间」辅助脱敏治疗,或构建历史场景增强教学体验。 --- ## 3. 技术现状与用户反馈 - **体验优缺点**:网友实测存在延迟(如外星球驾驶卡顿)、预设内容限制,但物理模拟的70%完成度已令人惊艳。 - **对比传统技术**:与代码游戏引擎不同,Genie采用「实时视频生成」路径,未来可能与之分庭抗礼。 - **开发团队坦承**:早期版本物理规则不精准,穿模/轨迹异常频发,需进一步优化。 --- ## 4. 行业影响与未来展望 - **2026年爆发点**:VentureTwins预测世界模型技术将迎来井喷,Genie或成为关键推动者。 - **超越Sora的潜力**:文章认为Genie而非视频生成模型Sora,更可能实现「世界不存在了」的虚拟现实颠覆。 - **开源生态补充**:如LingBot-VA模型,通过动作序列推演提升机器人实操能力(如叠衣物、拆快递)。
马斯克真没吹牛,世界模型Genie3一键打造GTA6不是梦
2026-01-30 17:18

马斯克真没吹牛,世界模型Genie3一键打造GTA6不是梦

本文来自微信公众号: APPSO ,作者:发现明日产品的,原文标题:《马斯克真没吹牛!世界模型 Genie 3 一键打造 GTA6 不是梦》


AI热点一个接一个,大家光顾着看热闹,真正的王炸反而容易被错过。


就在今天凌晨,Google DeepMind推出了打磨已久的新项目:Project Genie。这不单是一个好玩的AI工具,更是Google通往通用人工智能(AGI)的重要一步:


一个真正的「世界模型」实验原型。


目前,Project Genie已经向美国地区18岁及以上的Google AI Ultra订阅用户开放使用。


首先我们要搞清楚一个概念,Project Genie生成的本质上是一个实时渲染的交互环境。它的技术底座由三部分组成:负责图像控制的Nano Banana Pro、负责理解语言指令的Gemini模型,以及负责物理反馈的Genie 3。


前两者我们都比较熟悉,无需赘述,但Genie 3又该怎么理解呢?


简单来说,它的机制和人类做梦的原理很像。


我们在做梦时,大脑会构建一个包含视听触觉的虚拟世界。虽然梦里的逻辑有时会跳跃,但沉浸感很强。Genie其实就是让计算机学会「做梦」,并且允许用户进入这个梦境进行互动。


此外,与ChatGPT这类基于文本统计规律的模型不同,Genie 3本质上是一个「物理世界模型」。它虽然没学过物理公式,但通过观看几百万次物体运动的视频,自己「学会」了重力、惯性这些物理规则。


体验Project Genie的方式也非常简单。


Google AI产品宣传委员Josh Woodward就演示了全过程:他先把自己的照片转换成复古游戏风格的角色,然后上传到Genie,输入「沙漠场景」和角色描述。


点击生成后,他就能以牛仔的身份在沙漠里自由探索了。


为了让控制更精准,用户还可以在进入前预览环境,并调整视角。点击开始后,当你按下键盘方向键(WASD),系统会实时预测并生成前方的路径和场景。


整个过程就跟玩游戏一样,有所不同的是,你不仅是观众,更是这个世界的导演。


不过,作为一个还在开发中的实验模型,Project Genie也有明显短板,比如每次只能玩60秒。在接受的采访播客中,Google开发团队解释说,时间太长会导致画面逻辑崩坏,产生幻觉,而且实时生成的计算成本极高。


🔗https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=1s


因此,为了平衡体验和成本,目前的单次探索被限制在1分钟内。


当然,如果你玩腻了沙漠,可以随时修改指令,把场景变成赛博城市,而角色的动作逻辑依然会保留。前阵子马斯克在社交平台上表示,AI有可能让普通人几分钟内生成《GTA6》。


VentureTwins也认为,2026年将是世界模型的爆发之年。Project Genie这种「实时视频生成」的技术路径,未来可能会和基于代码的传统游戏引擎分庭抗礼。


有了Project Genie,这些判断似乎听起来也不那么遥远了。


图片来自@AngryTomtweets🔗https://x.com/AngryTomtweets/status/2016986111927865430


在驾驶直升机时,左下角的地图还会实时更新。


图片来自@fofrAI🔗https://x.com/fofrAI/status/2016936855607136506


网友@yrzhe_top试玩后则反馈称,他在外星球开车「兜风」时发现,没有宣传视频那么流畅,有些延迟,自定义提示也没生效,只能用官方预设内容。


Google开发团队也承认,目前Genie 3处于早期阶段,物理规律模拟得还不够准确,穿模或轨迹怪异的情况常有发生。不过@yrzhe_top也表示,虽然它只做到了承诺的七成,但这七成已经足够让人惊艳。


图片来自@jen_w1n🔗https://x.com/jen\_w1n/status/2016929094517088416


当然,如果只是为了做一个高配版的《我的世界》,Google显然不需要动用那么多资源。Project Genie的真正野心在于解决AI通往AGI路上的最大拦路虎,即数据枯竭与具身智能瓶颈。


是的,互联网上的高质量文本数据快被吃光了,且机器人无法通过阅读百科全书学会洗碗,它需要肌肉记忆和物理反馈。


然而,现实中获取机器人失败数据的成本极高,但Genie可以作为一个无限的合成数据生成器,模拟出十亿个不同的厨房、仓库或外星地表,让机器人在里面积累「肌肉记忆」,学会了再应用到现实中。


类似的还有蚂蚁灵波今天开源的LingBot-VA模型,它能在生成画面的同时推演动作序列,让机器人像人一样「边想边做」。制作早餐、拾取螺丝、拆快递、叠衣物、叠裤子的能力都有所长进。



此外,Google开发团队在访谈中还畅想了更具人文关怀的应用场景,例如心理治疗与教育。


家长可以利用Genie生成一个「满是蜘蛛的房间」,在一个绝对安全且可控的虚拟环境下帮助孩子进行脱敏练习。或者在历史课上,直接生成一个18世纪的巴黎街道让学生亲历其境。


尽管现在的Project Genie还有画质粗糙、时长短、延迟高以及无法多人联机等问题,但它确实推开了那扇通往物理现实模拟的大门。


回头看2024年那句「世界不存在了」,最后让它成真的,估计不是Sora,而是Genie。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定