本文来自微信公众号: 集智俱乐部 ,作者:任筱芃
在「游戏✖️复杂科学」读书会前两期的讨论中,我们从简单规则出发,看到计算机如何通过最基本的机制生成复杂结构,这也构成了复杂性科学的重要起点。进一步地,我们将这种“规则生成世界”的思想带入交互系统,尝试让知识不再被线性传递,而是在环境、行动与反馈的循环中被体验与理解。
随着实时渲染与交互技术的发展,知识开始嵌入空间与系统之中,通过探索逐步涌现。而当程序化生成与生成式AI被引入,虚拟世界进一步获得“自我生长”的能力——地形、生态乃至社会结构,都可以在规则与算法中不断演化。
在这样的路径上,游戏逐渐从内容媒介转变为一种方法:它既是复杂系统的实验场,也是理解现实的一种方式。我们将在读书会第三期分享交流,当世界本身变得可计算、可生成,我们或许正在进入一种新的认知框架——理解与行动,不再被给予,而是在持续的互动中不断生成。
关键词:程序化生成(Procedural Generation),具身智能(Embodied AI),世界模拟器(World Simulator),多智能体系统(Multi-agent System),虚幻引擎5(Unreal Engine 5),LLM智能体(LLM Agent)

论文题目:SimWorld:An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds
论文链接:https://neurips.cc/virtual/2025/poster/119002(扩展更新版:https://arxiv.org/abs/2512.01078)
发表时间:2025年12月
论文来源:NeurIPS
楔子
LLM的技术缺口并非抽象的学术命题。它已经以事故的形式,在真实世界中示现。2026年春节,Meta的Summer Yue将开源AI智能体OpenClaw接入工作邮箱整理邮件。她下达了明确指令——“仅建议归档或删除的邮件名单,未经我批准,绝不擅自执行操作”。OpenClaw仍然失控,疯狂删除了200多封邮件,最终不得不狂奔去拔网线才终止操作。同年3月,一位开发者让AI编程助手协助服务器迁移,结果AI在无人监督下自主执行了破坏性命令,瞬间抹除了2.5年的生产数据及全部备份。

图0:X.com截图
这些事故发生在数字世界中,操作对象不过是邮件和文件。而当同样的智能体被放进城市街道、驾驶车辆、与行人互动时,失控的代价将从删库升级为什么就难以言说了。但事故只是问题的一面。另一面更微妙,即使AI没有“失控”,它也可能根本不理解自己被要求做什么。
2025年,GPT-4o在美国律师资格考试中超越了90%的人类考生。同年,Claude-3.5-Sonnet在研究生级别推理基准GPQA上得分超过领域专家。Gemini在蛋白质结构预测上逼近实验精度。DeepSeek-V3以不到600万美元的训练成本,在多项基准测试中追平了花费数十倍资源的竞争对手。然后,都给我去送外卖吧。<( ̄︶ ̄)↗[GO!]
把当时最强的十个大语言模型放进了虚幻引擎5构建的3D城市里,让它们竞价接单、取货配送、管理能量和资金。结果令人错愕。GPT-4o-mini的所有指标为零——它连表现出理解“赚钱”是什么意思的能力都没有;Claude-3.5-Sonnet虽然拿到了最高利润,但会花光全部积蓄买滑板车却从不使用;DeepSeek-Prover-V2的决策反复横跳,标准差几乎和均值一样大。通过律师考试的天才,送不了外卖。解得出奥数金牌的模型,不理解“先接单,再取货,再送货”这个几乎任何人都能理解的因果链。
这项研究精确地指向了当前AI研究的一个结构性盲区。我们擅长训练模型在结构化的、规则明确的环境中做"题"——这类环境的特征是状态空间有限、反馈信号明确、动作语义封闭,却几乎没有办法评估它们在开放的、嘈杂的、充满竞争与合作的物理-社会世界中"活劳动"的能力——那里的状态空间开放且动态演化,反馈延迟、稀疏且多义,动作的因果后果跨越时间步骤累积。而后者才是AI智能体最终必须面对的战场。
症结之一在于缺乏合适的试验场。现有平台要么物理引擎简陋,要么领域过于狭窄,要么社会结构单薄。SimWorld试图填补这一空白。它是一个基于虚幻引擎5的开源模拟器,兼具真实的物理引擎、程序化生成的无限城市、以及原生支持LLM/VLM的智能体接口。SimWorld不让AI做题刷榜,要让AI真正面对"生活",使原本隐性的能力缺陷变得可观测、可量化、可复现。
研究背景与问题
AI智能体的数字-物理鸿沟
近年来,以GPT-4、Claude、Gemini为代表的大模型智能体在结构化领域(数学、编程、网页浏览)取得了长足进步。然而,这些环境相对干净,也即是规则明确、反馈清晰的。相比之下,智能体最终被期望在其中运作的物理-社会世界,本质上是复杂、嘈杂、动态和混沌的。
要推进具身智能体的发展,研究团队需要一种新型的模拟环境。然而,现有的世界模拟器存在三个层面的不足。
三个层次的“不够”
游戏化平台不够真。Minecraft等平台虽然为具身交互提供了可访问的环境,但物理引擎简陋——Minecraft依赖离散的方块机制,没有真实的重力或惯性,社会结构单薄,限制了向真实世界的泛化。
领域专用模拟器不够通用。CARLA专注自动驾驶(仅有15个场景)、AI2-THOR聚焦家庭机器人、Habitat 3.0面向室内协作——它们各自深耕一个狭窄的领域,场景有限、任务单一,无法支持开放世界式的多维度研究。
社交沙盒不够深。Stanford的“生成式智能体”实验(Smallville)和Virtual Village等项目模拟了人际互动,但规模小(Smallville仅25个角色)、脚本性高、缺乏物理基础,且不支持LLM原生接口。

图1:SimWorld与现有模拟器的对比。
在“开放世界”(程序化生成+语言可控编辑)、“物理/社会真实度”、“动作空间”(抽象层级+开放词汇)等维度上,SimWorld是唯一全面打勾的模拟器。其他平台如Minedojo(Minecraft)、CARLA(自动驾驶)、Habitat 3.0(家庭机器人)、Genesis(机器人)等均在至少一个关键维度上缺失。
SimWorld同时满足真实(UE5物理引擎)、开放(程序化生成无限城市)、LLM原生(Gym-like接口+开放词汇动作空间)三个维度。
SimWorld三大核心设计
SimWorld采用三层架构(图2)如下。底层是虚幻引擎后端(C++),负责高保真渲染和物理模拟;中间是环境层(Python),提供程序化城市生成、交通系统和标准化的Gym-like接口;顶层是智能体层(Python),集成LLM/VLM推理引擎、观测空间和动作规划器。三层通过UnrealCV+通信模块(TCP协议)连接,形成完整的“感知-规划-行动”闭环。

图2:SimWorld架构图。
真实、开放的世界模拟
SimWorld的核心底气来自强大的虚幻引擎5。
在场景层面,SimWorld支持两种模式。100多个手工精选场景(涵盖古镇、自然风光、未来城市、奇幻世界等多种风格)和程序化自动生成的城市。程序化生成采用模块化管线(基于四叉树数据结构),依次生成道路网络、建筑布局和街道元素(树木、路锥、长椅、停放的车辆),所有参数(城市规模、建筑密度、车辆和行人数)均可自定义,支持理论上无限的环境扩展。
更值得注意的是LLM驱动的场景编辑功能。用户或AI智能体可以用自然语言实时修改场景——例如“在医院大门旁的钟楼附近加一些桌子和树木”。系统通过检索增强生成(RAG)的LLM场景智能体来理解指令,从资产库中检索匹配对象并放置到指定位置。如果资产库中没有合适的对象,系统会调用Text-to-3D生成模型(Hunyuan3D)来合成新的3D资产,自动赋予材质、光照和碰撞属性后集成到环境中。
在物理层面,SimWorld使用了更完整的物理动力学参量。重力、动量、碰撞响应、滑动、绊倒等真实物理模拟效果,远非Minecraft式的离散方块可比。系统还支持天气和光照变化(雨、雪、雾、方向光、环境光),以及由PID控制器驱动的交通系统(车辆运动、行人流、交通信号灯同步)。
系统支持三种具身形态——人形、车辆和机器人——在统一的物理框架内运行,共享质量、惯性、接触力等属性。
丰富的LLM/VLM智能体接口
SimWorld提供标准Gym-like接口,与现有的强化学习管线和智能体框架无缝集成。
观测空间分为两类。视觉观测(第一人称的RGB图像、深度图、语义分割掩码)和结构化语义信息(语义场景图编码环境中的实体、属性和关系,以及GPS式定位信息)。
动作空间采用双层架构。高层语义动作用自然语言表达(如“坐在最近的椅子上”),低层原始动作提供细粒度控制(前进、转向、拾取、放下、坐下、开车门、骑滑板车等)。系统内置动作规划器(Action Planner),自动将高层意图解析为低层动作序列。例如,接收到“走到最近的椅子坐下”后,规划器先计算最短路径,生成一系列导航原语(navigate(0,1)→navigate(1,10)→...),到达目标后执行“坐下”动作。规划器支持两种执行模式。基于规则的执行器(使用抽象城市布局信息)和基于视觉的执行器(直接消费模拟器的视觉观测,与VLM/VLA端到端集成)。
SimWorld还支持两种运行模式。异步模式(每个智能体独立运行,适合大规模开放探索)和同步模式(所有智能体同步推进,适合需要可复现性的受控实验)。
多样的物理-社会推理场景
在上述基础上,SimWorld支持超越短期任务的长程目标——赚钱、发展职业轨迹、经营多智能体企业,策略决策随时间累积,社会动态影响结果。配套的三层评估框架覆盖总体表现(利润)、运营效能(成功率、能效)和行为特征(分享次数、投资次数)。
案例研究:一个“外卖”比赛
为展示SimWorld的完整能力,研究团队设计了一个配送任务(Delivery Task)。在程序化生成的城市中部署LLM驱动的配送智能体,让它们竞价抢单、取货配送、购买道具(如5倍加速滑板车)、管理能量(如买饮料恢复体力),以及通过分享订单实现多智能体协作。

图3:配送任务概览。一个需要多智能体协作与竞争的配送场景。每个智能体被赋予不同的性格(尽责、开放、外向、神经质)和初始状态,可以行动以成长、发展并最终最大化收益。
实验中,每个模型控制20个代理,运行5000步,每步发出2次API请求,平均每次约7000个token。研究团队采用ReAct提示框架明确分离推理和行动选择,对10个基础模型进行了三轮重复实验。
谁是最强“外卖员”?

图4:模型控制智能体的表现。指标报告为三次5000步模拟的均值(Avg)和标准差(Std)。
当九个模型在SimWorld的配送实验中展现出参差的表现时,最直觉的反应是给它们排名——谁赚得最多,谁最稳定,谁最差。我们确实能根据利润列看到清晰的排序。DeepSeek-V3(69.48)>Claude-3.5-Sonnet(69.07)>GPT-4o(43.91)>Gemini-2.5-Flash(42.42)>Gemini-2.0-Flash(28.72)>Qwen3-32B(24.73)>DeepSeek-Prover-V2(21.66)>QwQ(17.31)>GPT-4o-mini(0.00)。
但这种排名掩盖了更有价值的信息,因为不同模型的失败模式并不相同,它们停在了“能力金字塔”的不同层级上。配送任务所需的能力可以被分解为五个递进的层级,每一层的失败都指向一种不同性质的认知缺陷。
第一层:目标理解
能听懂“赚钱”这个目标吗?
GPT-4o-mini的所有指标为零——利润0.00、成功订单0.00、能效0.00、分享0.00、投资0.00。论文的判断是:“它并未真正理解目标,无法基于给定指令和上下文做出合理决策”("it does not truly understand the goals well enough to make reasonable decisions based on the given instructions and context")。
5000步,一步未动。不是做得差,是完全没有开始。
GPT-4o-mini接收到了规则说明、订单推送和地图信息,在字面意义上“理解”了每一个句子,却无法将这些句子组织成一个可执行的目标。原文可见研究团队清晰地定义了高层动作——竞标、取货订单、配送订单、共享订单、购买滑板车、购买饮料等——但GPT-4o-mini无法将这些动作按因果顺序编排成一串可执行的序列。

图5:配送任务中的分层动作空间设计。
这种“目标翻译”能力可能不是推理能力的线性延伸,而是一个独立的、当前某些模型完全缺失的能力维度。更强的模型(Claude、DeepSeek-V3)能通过更长的推理链隐式地完成这个翻译,但GPT-4o-mini在这道门槛前完全卡住了。
诊断:GPT-4o-mini停在金字塔的第一级——它甚至没有进入游戏。
第二层:交付闭环
能走完“竞价→取货→配送”这条因果链吗?
跨过第一层的模型都在做事情,但“做事情”和“完成事情”是两回事。图4的成功订单列精确地测量了这一点。

DeepSeek-Prover-V2和QwQ暴露了一种特殊的失败。它们并非不活跃——DeepSeek-Prover-V2有较高的分享次数(7.33±8.39),QwQ有一定的投资行为(3.33±2.52)——但它们几乎没有完成配送。DeepSeek-Prover-V2的成功订单是全部活跃模型中最低的(0.67±0.14)。
论文在模型竞争消融实验中对QwQ的观察也印证了这一点:它们“整体活跃度较低,导致竞价次数和订单获取率偏低”(“QwQ-32B and GPT-4o-mini are less active overall,leading to fewer bids and lower order acquisition rates”)。但图4显示QwQ的投资不为零(3.33),说明它并非完全不活跃——它在参与某些环节(如投资)的同时,未能走完交付闭环。
这是一种比GPT-4o-mini的完全失败更微妙的缺陷。模型理解任务,参与了一些环节,却无法将局部行为串联成完整的交付链条。“活跃但不产出”比“不活跃”更难诊断和修复。
诊断:DeepSeek-Prover-V2和QwQ勉强跨过了第一层,但在第二层断裂——它们有活动,但没有闭环。
第三层:资源与风险权衡
能在有限预算下做出连贯的决策吗?
跨过前两层的模型(Claude-3.5-Sonnet、DeepSeek-V3、GPT-4o、Gemini-2.5-Flash、Gemini-2.0-Flash、Qwen3-32B)都进入了第三层——它们能接单、配送、管理基本资源。但正是在这一层,六个模型展现出了截然不同的策略风格,也暴露了不同类型的权衡模式。
论文的核心观察是:在“优化峰值平均性能指标”与“确保一致、可预测的智能体行为”之间存在普遍的权衡("a prevalent trade-off between optimizing for peak average performance metrics and ensuring consistent,predictable agent behavior")。但不可预测性在不同模型身上的表现形式并不相同:
利润vs.稳定性。DeepSeek-V3和Claude-3.5-Sonnet像高风险高回报的投机者,利润最高但波动剧烈;Gemini-2.5-Flash像保守的储蓄者,利润中等但几乎零波动;GPT-4o像稳健的投资者,处于两者之间。

(表格已重排,非原文指标。GPT-4o-mini已排除。)
投资vs.效率。Claude-3.5-Sonnet和DeepSeek-V3像积极的投资人,投资次数最多,但Claude的投资更“精准”,每单位能量产生的收入更高;Qwen3-32B像高效的工人,能效很高,但总量太小。
分享vs.孤立。Claude-3.5-Sonnet像乐于分享的合作者,分享次数最多但不稳定;DeepSeek-V3像孤立的独行侠,分享极少但非常稳定;GPT-4o像几乎不合作的独狼,分享几乎为零。
诊断:没有模型在这一层达到完美的策略一致性。表现最好的DeepSeek-V3和Claude-3.5-Sonnet勉强攀到了第三层的顶部,但通过不同的路径——DeepSeek-V3靠稳定的孤立策略和高投资,Claude-3.5-Sonnet靠高能效和高合作(但不稳定)。Gemini-2.5-Flash用“不做冒险决策”的策略绕过了第三层的部分问题,但代价是平庸的表现。
第四层:社会推理
能理解“别人”并据此调整行为吗?
配送任务中的社会维度主要体现在两个机制上——竞价竞争和订单分享。图4的分享次数列和模型竞争消融实验(原文Section 3.3)共同测量了这一层。
消融实验揭示了三种定价模式:
灵活定价型(Claude-3.7-Sonnet、Gemini-2.5-Flash、Gemini-2.0-Flash):出价分布广,根据竞争态势调整。中标率较高。
掠夺定价型(DeepSeek-Prover-V2、Qwen3-32B):经常报低价,在直接对抗中胜率最高。但低价中标意味着利润率被压缩——“赢了战役、输了战争”。这两个模型的利润确实很低(21.66、24.73)。
高价滞销型(GPT-4o、LLaMA-3.2-11b):出价偏高,中标率低。GPT-4o在消融中处于劣势,但在主实验中利润排第三——因为它在主实验中不需要与其他模型直接竞争。

图6:竞价行为与评估结果。(a)各模型的竞价价格分布(小提琴图),红色点为成功接受的竞价。低价虽然增加中标概率,但往往以利润率为代价。(b)模型间两两对抗的胜-负矩阵,红色为更多胜利,蓝色为更多失败。
值得注意的是,这三种策略的“优劣”高度依赖环境结构。在混合竞争环境中,灵活定价和掠夺定价各有优势;在单模型环境中,策略差异的影响被弱化。这说明AI智能体的“社会能力”不是绝对的,而是相对于竞争环境而言的。
分享行为是配送任务中唯一的合作机制。图4的分享列揭示了合作行为的两个独立维度——水平(均值)和稳定性(标准差):

(表格已经重排,变异系数为衍生计算,非原文指标。)
Claude-3.5-Sonnet平均分享最多,但也不稳定。DeepSeek-Prover-V2更极端——变异系数高达1.14。这意味着两个模型在合作行为上的“判断力”是可疑的。它们不是因为评估了合作是否有利而选择分享,而更可能是因为推理链的随机性在某些运行中经过了“分享”语义区域。
真正的社会推理应该是在对方信誉好且订单互补时分享,在对方是竞争对手时保留。但图4的数据暗示,目前的智能体在“分享”与“不分享”之间的切换更接近策略漂移而非社交判断。
环境配置消融实验提供了一个更细致的视角。论文发现订单充裕时分享行为增加——“随着资源充裕度提高,智能体表现出更强的发起和完成共享配送的倾向,这可能是通过协作来降低能量成本的手段”("as resource abundance increases,agents demonstrate a higher tendency to initiate and complete shared deliveries,likely as a means to reduce energy costs through collaboration")。这看起来像社会推理的涌现,但更可能是一种更简单的机制在起作用,即资源充裕时prompt中的“合作”相关语境被激活的概率更高。这是在使用统计相关性模仿社会认知,而非真正的“理解他人”。
诊断:所有模型在第四层都踉跄。它们的“社会行为”更多是推理链随机性的副产品,而非对社会情境的判断。但不同模型的“社会缺陷”类型不同——Claude是“有时过度合作有时完全不合作”,DeepSeek-V3是“稳定地有限合作”,GPT-4o是“稳定地几乎不合作”。
第五层:策略一致性
能在5000步内维持一个连贯的“自我”吗?
这是金字塔的最高层,也是所有模型共同失败的一层。它的证据不在某一个指标中,而是分散在图4的所有标准差列里。
Claude-3.5-Sonnet的不稳定性集中在分享行为,利润和成功订单的方差也大,但能效相对稳定。
DeepSeek-V3的不稳定性集中在利润,但成功订单、分享和投资都相对稳定。它的不稳定性不是“策略漂移”,而是“策略结果的波动”。
Gemini-2.0-Flash的不稳定性分散在利润和成功订单上,但分享和投资的方差较小。
GPT-4o的利润方差中等,但分享几乎为零且极度稳定,投资也很稳定。它的“一致性”实际上是一种一致的不作为。
这些差异指向一个更深层的诊断:策略不一致性有多种类型,需要不同的修复方案。
Claude式的不一致(合作行为在运行间剧烈波动)可能需要更强的跨步骤状态记忆或策略锚定机制。DeepSeek-V3式的不一致(利润波动但行为稳定)可能不是推理缺陷,而是环境随机性在结果层面的放大——同样的策略在不同的订单流和竞争条件下自然会产生不同的利润。Gemini-2.5-Flash的极端一致性(利润变异系数仅0.07)可能是过度保守策略的副产品——它通过拒绝风险来消除波动,但也放弃了上升空间。
人格消融实验(Section 3.3)提供了策略一致性的另一个视角。论文使用表现最好的模型控制20个智能体,每个Big Five维度分配给2个智能体。Pearson相关矩阵显示人格设定确实塑造了行为——尽责性与竞价胜率正相关(r=0.65),宜人性与“什么都不做”强负相关,开放性与配送订单数负相关,开放性与购买滑板车正相关,外向性与购买饮料正相关。

图7:人格对智能体表现和行为的影响。尽责性与竞价胜率正相关(r=0.65),与竞价次数负相关(r=-0.64);宜人性与“什么都不做”次数强负相关(r=-0.70);开放性与配送订单数负相关(r=-0.70)。
这里有一个被低估的亮点:Big Five人格特质不仅显著影响了智能体的决策策略(尽责的更勤奋、开放的更爱冒险),而且这些影响可以通过线性回归量化(相关系数在0.63–0.70之间)。这意味着“给NPC一个性格”不再是一个模糊的设计直觉,而是一个可以被精确调控的工程参数——对游戏设计师而言,AI NPC的“性格”可以成为可调校的工具,就像物理引擎中的重力参数一样。
但即使在同一人格设定下,同一模型的不同运行之间仍然存在显著方差。人格设定塑造了统计意义上的行为倾向,但没有塑造出我们期望于一个“性格稳定的人”的那种跨时间连贯性。LLM的每一步推理都是从prompt重新开始的,人格设定只是一个增加某些输出概率的偏置项,而非一个持续影响感知、记忆和决策的内在结构。
诊断:没有模型到达金字塔的顶端。策略一致性是当前所有模型的共同短板——不是它们不知道该怎么做,而是它们无法在长时间跨度中持续地做“自己知道正确的事”。
诊断总结
把五层诊断叠在一起,我们就能看到一幅能力渐次缺失的场景

从第三层到第四层有一个大断裂。第三层的问题可以通过更强的推理模型来部分解决(GPT-4o、Claude、DeepSeek-V3的表现优于其他模型),但第四层和第五层的问题似乎对所有模型都平等地存在——无论推理能力多强,策略一致性都无法自动获得。
这组诊断的意义不在于嘲讽AI“连外卖都送不好”。但是如果你想让AI智能体在真实世界中可靠地行动,你可能需要依次解决目标分解、交付闭环、策略权衡、社会认知和策略一致性这五个问题。SimWorld的价值正在于让这些原本隐性的能力缺陷变得可见、可量化、可复现。
这不是一场AI之间的竞赛,而是一场AI与自身能力边界的较量。当今最强的LLM在“送外卖”这件看似简单的事情上表现参差——DeepSeek-V3和Claude-3.5-Sonnet赚了最多的钱但行为不稳定,Gemini-2.5-Flash最稳定但收益中等,GPT-4o-mini完全不理解目标。如果连送外卖都做不到完美,那我们对AI智能体“自主赚钱”以及更进一步的AGI的期待需要校准。
产业对照
从Stanford Smallville的25个AI角色在一个简陋的2D像素小镇里过日子,到SimWorld把数十个LLM智能体放进虚幻引擎5构建的3D城市里送外卖——这条技术路径的演进速度令人瞩目。而当我们注意到Krafton用同一个引擎做《inZOI》、Rockstar为NPC导航系统申请专利、腾讯报告1.1亿用户已经体验过AI NPC时,会发现AI研究者和游戏开发者的工作正在从平行线变成交汇线。
SimWorld选择虚幻引擎5作为底层引擎,这并非偶然。UE5是当今游戏工业最主流的引擎之一,这意味着SimWorld所构建的世界,在视觉和物理真实度上已经与商业游戏站在同一维上。而当我们把目光投向产业界,会发现一场静悄悄的合流正在发生。
模拟器与游戏对照

Krafton的《inZOI》同样基于UE5,同样追求全城同时模拟的体验——官网宣称“整个城市不断同时模拟”(the entire city is constantly being simulated all at once),在2025年以抢先体验形式上线Steam后,预计2026年上半年登陆PS5。它的NPC行为同样由AI驱动,只不过目的是娱乐玩家而非训练智能体。

图8:《inZOI》游戏截图
Rockstar的《GTA 6》(预计2026年11月发售)走的是另一条路。Take-Two Interactive的CEO Strauss Zelnick明确声明:“生成式AI在Rockstar Games的制作中零参与”(Generative AI has zero part in what Rockstar Games is building)。GTA 6的世界是手工打造的巨城,NPC行为由传统行为树和多项专利技术(包括新的NPC虚拟导航系统和基于环境条件的动态动画系统)驱动,追求极致的可控性和叙事品质。
米哈游创始人蔡浩宇的新公司Anuttacon则走出了第三条路:《Whispers from the Star》以AI实时对话为核心玩法——玩家通过自然语言与AI角色Stella互动,引导她在太空生存场景中行动。这款游戏本质上是把SimWorld式的“LLM驱动智能体”概念直接做成了商业产品,只不过SimWorld里的受自然语言约束的配送员变成了幸存者。

图10:《Whispers from the Star》官网
两条路线的分歧:可控性vs.涌现性
上述对照揭示了游戏工业在AI NPC问题上的根本张力。
GTA 6路线选择完全的可控性——不用生成式AI,所有内容由艺术家和设计师手工打造。代价是极高的制作成本和漫长的开发周期(GTA 6的开发周期已超过10年),但回报是对交互的精确控制。
SimWorld/inZOI路线则拥抱涌现性——让LLM驱动的NPC在物理世界中自主行动,接受一定程度的不确定性和不可预测性。SimWorld的配送实验已经揭示了这种涌现性的两面:一方面,人格设定确实塑造了可预测的行为模式(尽责的智能体更勤奋);另一方面,即使是当今最强的模型也会做出不理性的决策(花光积蓄囤积滑板车)。
这两条路线并非互斥。未来的游戏很可能是混合架构——核心叙事由设计师把控(GTA 6路线),而世界填充和背景NPC行为由LLM驱动(SimWorld路线)。
这条可控性-涌现性的光谱已经在产业实践中先行展开。当SimWorld还在用配送任务验证LLM智能体的行为逻辑时,中国的游戏公司已经把AI NPC推向了上亿用户——腾讯的《和平精英》AI NPC累计体验用户过亿,网易的《逆水寒》甚至搭建了游戏内的“大模型竞技场”让玩家直接评判不同模型的NPC表现,巨人网络等公司则将AI能力嵌入现有玩法的具体环节(动态剧情、策略预判)。但这些实践与SimWorld之间形成了清晰的分野。SimWorld赋予智能体完全的自主性——经济动机、人格特质、竞争合作;腾讯和网易的AI NPC能交互,但行为仍受游戏框架约束;更多的公司(如巨人网络)则走得更保守,只在特定环节引入AI。核心张力始终是同一对矛盾,即可控性与涌现性之间的平衡,而产业界人士正在这条光谱上寻找各自的落脚点。
从产业端看,SimWorld提供了一个统一的、可复现的、可扩展的试验场,让我们能够系统地测量“AI离在真实世界中生存还有多远”。这个测量结果也在告诉游戏公司一个重要的信息。你们的AI NPC在各种意义上都可能比你以为的更笨——或者更聪明——取决于你用的是哪个模型,以及你给了它什么样的prompt。
该研究的局限性
研究团队虽未在论文中明确列出“局限性”章节,但从实验设计和结果中可以识别出以下问题:
场景验证单一:虽然SimWorld号称支持“赚钱、职业发展、经营企业”等长程目标,但论文仅展示了配送这一种场景。系统在更复杂的社会推理场景(如车联网)中的表现仍有待验证。
模型评估不够深入:主要关注利润等宏观指标,对智能体的推理质量、常识错误(只买不用的滑板车)、安全风险等缺乏细粒度分析。这些“错误行为”实际上可能蕴含着更深层的研究价值。
计算成本高昂:每步2次API调用、每次约7000个token,5000步×20个代理意味着巨大的API开销,这在一定程度上限制了实验的可扩展性和可复现性。
物理-社会耦合尚浅:配送任务中的“社会”维度主要限于竞价和分享订单,尚未涉及更复杂的社会结构(如组织、规范、文化)。
缺乏真实世界验证:所有实验均在模拟环境中进行,智能体在SimWorld中学到的策略能否迁移到真实世界,仍是一个开放问题。
论文性质:虽然论文已被NeurIPS 2025接收,但目前的案例研究主要关注利润等宏观指标,对智能体的推理质量、常识错误、安全风险等缺乏细粒度分析。作为一个平台型工作,SimWorld的系统说明属性仍强于严格评估,社区需要在更多样化的场景和更严格的对照实验中检验其能力。
结语
SimWorld作为开源项目发布,这本身就值得肯定。在游戏引擎和AI模型都日益封闭的趋势下,一个基于UE5的、开放的、可定制的世界模拟器,为跨学科合作(机器人学、社会科学、商业、公共卫生、教育)提供了公共基础设施。SimWorld能不能成为它所期望的“奠基性平台”,取决于社区能否在配送任务之外,构建出更多样、更有挑战性的场景——那些真正考验AI智能体在物理-社会世界中“生存能力”的场景。
参考文献
1.Ren,J.,Zhuang,Y.,Ye,X.,Mao,L.,He,X.,Shen,J.,Dogra,M.,Liang,Y.,Zhang,R.,Yue,T.,Yang,Y.,Liu,E.,Wu,R.,Benavente,K.,Nagaraju,R.M.,Faayez,M.,Zhang,X.,Sharma,D.V.,Zhong,X.,Ma,Z.,Shu,T.,Hu,Z.,&Qin,L.(2026).SimWorld:An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds.arXiv:2512.01078v2.https://arxiv.org/abs/2512.01078
2.KRAFTON.(2025).KRAFTON Announces inZOI for PlayStation 5,Launching in H1 2026.https://www.krafton.com/en/news/press/krafton-announces-inzoi-for-playstation-5-launching-in-h1-2026/
3.Rockstar Games.(2025).Grand Theft Auto VI is Now Coming May 26,2026.https://www.rockstargames.com/newswire/article/258aa538o412ok/grand-theft-auto-vi-is-now-coming-may-26-2026
4.Anuttacon.“Whispers from the Star.”Anuttacon,14 Aug.2025,https://wfts.anuttacon.com/.
