当前最强的AI大语言模型在虚拟城市中执行“送外卖”任务时表现参差,暴露了其在开放物理-社会世界中行动能力的结构性缺陷。SimWorld模拟器通过构建真实、开放、可计算的世界,为诊断和推进具身智能提供了关键试验场。 ## 1. AI智能体的现实困境:从考试天才到“送外卖”新手 文章开篇以Meta邮件误删等真实事故为例,指出LLM在封闭、结构化任务中表现卓越(如GPT-4o通过律师考试),但在开放世界任务中却困难重重。研究团队将十个顶级LLM放入虚幻引擎5构建的3D城市中执行配送任务,结果令人错愕:GPT-4o-mini完全无法理解“赚钱”目标,各项指标为零;Claude-3.5-Sonnet利润最高但会花光积蓄购买从不使用的滑板车;DeepSeek-Prover-V2决策反复横跳。这精确揭示了当前AI研究的结构性盲区:擅长在规则明确的环境中“做题”,却缺乏在动态、嘈杂的物理-社会世界中“活劳动”的能力。 ## 2. SimWorld的诞生:填补真实世界模拟的空白 针对现有模拟平台的不足,SimWorld应运而生。它旨在填补三个层面的空白:游戏化平台(如Minecraft)物理引擎简陋、社会结构单薄;领域专用模拟器(如CARLA)场景有限、不够通用;社交沙盒(如Smallville)规模小、脚本性高。SimWorld是唯一在“开放世界”、“物理/社会真实度”、“LLM原生接口”三个维度上全面达标的模拟器,其核心底气源于强大的虚幻引擎5。 ## 3. 三大核心设计:真实、开放与智能体友好 SimWorld采用三层架构,其核心设计围绕三大支柱展开。**真实的世界模拟**:基于UE5提供高保真物理效果(重力、动量、碰撞)和程序化生成的无限城市,并支持LLM驱动的自然语言场景实时编辑。**丰富的智能体接口**:提供标准Gym-like接口,支持视觉和语义观测,并采用高层语义动作与低层原始动作相结合的双层动作空间,内置动作规划器。**多样的推理场景**:支持智能体追求“赚钱”、“职业发展”等长程目标,并配备了覆盖总体表现、运营效能和行为特征的三层评估框架。 ## 4. 深度诊断:LLM能力缺失的五层金字塔 通过对配送实验结果的细致分析,文章将AI智能体所需的能力分解为五个递进层级,并诊断了各模型的缺陷。**第一层:目标理解** - GPT-4o-mini未能跨过此层,完全无法将指令组织成可执行的目标。**第二层:交付闭环** - DeepSeek-Prover-V2和QwQ虽有活动,但无法走完“竞价→取货→配送”的完整因果链。**第三层:资源与风险权衡** - 跨过前两层的模型在此展现出不同策略风格,但普遍存在性能与行为可预测性之间的权衡,没有模型达到完美的一致性。**第四层:社会推理** - 所有模型在竞价竞争和订单分享行为上均表现踉跄,其“社会行为”更像是推理随机性的副产品,而非真正的社会情境判断。**第五层:策略一致性** - 这是所有模型的共同短板,它们无法在长时间跨度中维持一个连贯的“自我”和决策逻辑。 ## 5. 产业对照:游戏与AI研究的静悄悄合流 SimWorld选择UE5作为底层,使其与游戏产业前沿技术同频。Krafton的《inZOI》、Rockstar的《GTA 6》(明确不用生成式AI)以及Anuttacon的《Whispers from the Star》代表了游戏工业在AI NPC问题上的不同路线,核心张力在于**可控性(GTA 6)与涌现性(SimWorld/inZOI)** 之间的平衡。中国的游戏公司(如腾讯、网易)已在实际产品中大规模部署AI NPC,但行为受框架约束,与SimWorld赋予完全自主性的研究路径形成分野。 ## 6. 价值与局限:开放平台的基础设施意义 SimWorld作为开源项目,为跨学科研究提供了重要的公共基础设施,其价值在于让AI智能体隐性的能力缺陷变得**可观测、可量化、可复现**。同时,文章也指出了其局限性,包括场景验证目前较为单一(仅深度展示了配送任务)、计算成本高昂、物理-社会耦合尚浅以及缺乏真实世界验证。
SimWorld:尝试给AI智能体造一个真实世界
2026-04-11 14:42

SimWorld:尝试给AI智能体造一个真实世界

本文来自微信公众号: 集智俱乐部 ,作者:任筱芃


在「游戏✖️复杂科学」读书会前两期的讨论中,我们从简单规则出发,看到计算机如何通过最基本的机制生成复杂结构,这也构成了复杂性科学的重要起点。进一步地,我们将这种“规则生成世界”的思想带入交互系统,尝试让知识不再被线性传递,而是在环境、行动与反馈的循环中被体验与理解。


随着实时渲染与交互技术的发展,知识开始嵌入空间与系统之中,通过探索逐步涌现。而当程序化生成与生成式AI被引入,虚拟世界进一步获得“自我生长”的能力——地形、生态乃至社会结构,都可以在规则与算法中不断演化。


在这样的路径上,游戏逐渐从内容媒介转变为一种方法:它既是复杂系统的实验场,也是理解现实的一种方式。我们将在读书会第三期分享交流,当世界本身变得可计算、可生成,我们或许正在进入一种新的认知框架——理解与行动,不再被给予,而是在持续的互动中不断生成。


关键词:程序化生成(Procedural Generation),具身智能(Embodied AI),世界模拟器(World Simulator),多智能体系统(Multi-agent System),虚幻引擎5(Unreal Engine 5),LLM智能体(LLM Agent)



论文题目:SimWorld:An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds


论文链接:https://neurips.cc/virtual/2025/poster/119002(扩展更新版:https://arxiv.org/abs/2512.01078)


发表时间:2025年12月


论文来源:NeurIPS


楔子


LLM的技术缺口并非抽象的学术命题。它已经以事故的形式,在真实世界中示现。2026年春节,Meta的Summer Yue将开源AI智能体OpenClaw接入工作邮箱整理邮件。她下达了明确指令——“仅建议归档或删除的邮件名单,未经我批准,绝不擅自执行操作”。OpenClaw仍然失控,疯狂删除了200多封邮件,最终不得不狂奔去拔网线才终止操作。同年3月,一位开发者让AI编程助手协助服务器迁移,结果AI在无人监督下自主执行了破坏性命令,瞬间抹除了2.5年的生产数据及全部备份。


图0:X.com截图


这些事故发生在数字世界中,操作对象不过是邮件和文件。而当同样的智能体被放进城市街道、驾驶车辆、与行人互动时,失控的代价将从删库升级为什么就难以言说了。但事故只是问题的一面。另一面更微妙,即使AI没有“失控”,它也可能根本不理解自己被要求做什么。


2025年,GPT-4o在美国律师资格考试中超越了90%的人类考生。同年,Claude-3.5-Sonnet在研究生级别推理基准GPQA上得分超过领域专家。Gemini在蛋白质结构预测上逼近实验精度。DeepSeek-V3以不到600万美元的训练成本,在多项基准测试中追平了花费数十倍资源的竞争对手。然后,都给我去送外卖吧。<( ̄︶ ̄)↗[GO!]


把当时最强的十个大语言模型放进了虚幻引擎5构建的3D城市里,让它们竞价接单、取货配送、管理能量和资金。结果令人错愕。GPT-4o-mini的所有指标为零——它连表现出理解“赚钱”是什么意思的能力都没有;Claude-3.5-Sonnet虽然拿到了最高利润,但会花光全部积蓄买滑板车却从不使用;DeepSeek-Prover-V2的决策反复横跳,标准差几乎和均值一样大。通过律师考试的天才,送不了外卖。解得出奥数金牌的模型,不理解“先接单,再取货,再送货”这个几乎任何人都能理解的因果链。


这项研究精确地指向了当前AI研究的一个结构性盲区。我们擅长训练模型在结构化的、规则明确的环境中做"题"——这类环境的特征是状态空间有限、反馈信号明确、动作语义封闭,却几乎没有办法评估它们在开放的、嘈杂的、充满竞争与合作的物理-社会世界中"活劳动"的能力——那里的状态空间开放且动态演化,反馈延迟、稀疏且多义,动作的因果后果跨越时间步骤累积。而后者才是AI智能体最终必须面对的战场。


症结之一在于缺乏合适的试验场。现有平台要么物理引擎简陋,要么领域过于狭窄,要么社会结构单薄。SimWorld试图填补这一空白。它是一个基于虚幻引擎5的开源模拟器,兼具真实的物理引擎、程序化生成的无限城市、以及原生支持LLM/VLM的智能体接口。SimWorld不让AI做题刷榜,要让AI真正面对"生活",使原本隐性的能力缺陷变得可观测、可量化、可复现。


研究背景与问题


AI智能体的数字-物理鸿沟


近年来,以GPT-4、Claude、Gemini为代表的大模型智能体在结构化领域(数学、编程、网页浏览)取得了长足进步。然而,这些环境相对干净,也即是规则明确、反馈清晰的。相比之下,智能体最终被期望在其中运作的物理-社会世界,本质上是复杂、嘈杂、动态和混沌的。


要推进具身智能体的发展,研究团队需要一种新型的模拟环境。然而,现有的世界模拟器存在三个层面的不足。


三个层次的“不够”


游戏化平台不够真。Minecraft等平台虽然为具身交互提供了可访问的环境,但物理引擎简陋——Minecraft依赖离散的方块机制,没有真实的重力或惯性,社会结构单薄,限制了向真实世界的泛化。


领域专用模拟器不够通用。CARLA专注自动驾驶(仅有15个场景)、AI2-THOR聚焦家庭机器人、Habitat 3.0面向室内协作——它们各自深耕一个狭窄的领域,场景有限、任务单一,无法支持开放世界式的多维度研究。


社交沙盒不够深。Stanford的“生成式智能体”实验(Smallville)和Virtual Village等项目模拟了人际互动,但规模小(Smallville仅25个角色)、脚本性高、缺乏物理基础,且不支持LLM原生接口。


图1:SimWorld与现有模拟器的对比。


在“开放世界”(程序化生成+语言可控编辑)、“物理/社会真实度”、“动作空间”(抽象层级+开放词汇)等维度上,SimWorld是唯一全面打勾的模拟器。其他平台如Minedojo(Minecraft)、CARLA(自动驾驶)、Habitat 3.0(家庭机器人)、Genesis(机器人)等均在至少一个关键维度上缺失。


SimWorld同时满足真实(UE5物理引擎)、开放(程序化生成无限城市)、LLM原生(Gym-like接口+开放词汇动作空间)三个维度。


SimWorld三大核心设计


SimWorld采用三层架构(图2)如下。底层是虚幻引擎后端(C++),负责高保真渲染和物理模拟;中间是环境层(Python),提供程序化城市生成、交通系统和标准化的Gym-like接口;顶层是智能体层(Python),集成LLM/VLM推理引擎、观测空间和动作规划器。三层通过UnrealCV+通信模块(TCP协议)连接,形成完整的“感知-规划-行动”闭环。


图2:SimWorld架构图。


  1. 真实、开放的世界模拟


SimWorld的核心底气来自强大的虚幻引擎5。


在场景层面,SimWorld支持两种模式。100多个手工精选场景(涵盖古镇、自然风光、未来城市、奇幻世界等多种风格)和程序化自动生成的城市。程序化生成采用模块化管线(基于四叉树数据结构),依次生成道路网络、建筑布局和街道元素(树木、路锥、长椅、停放的车辆),所有参数(城市规模、建筑密度、车辆和行人数)均可自定义,支持理论上无限的环境扩展。


更值得注意的是LLM驱动的场景编辑功能。用户或AI智能体可以用自然语言实时修改场景——例如“在医院大门旁的钟楼附近加一些桌子和树木”。系统通过检索增强生成(RAG)的LLM场景智能体来理解指令,从资产库中检索匹配对象并放置到指定位置。如果资产库中没有合适的对象,系统会调用Text-to-3D生成模型(Hunyuan3D)来合成新的3D资产,自动赋予材质、光照和碰撞属性后集成到环境中。


在物理层面,SimWorld使用了更完整的物理动力学参量。重力、动量、碰撞响应、滑动、绊倒等真实物理模拟效果,远非Minecraft式的离散方块可比。系统还支持天气和光照变化(雨、雪、雾、方向光、环境光),以及由PID控制器驱动的交通系统(车辆运动、行人流、交通信号灯同步)。


系统支持三种具身形态——人形、车辆和机器人——在统一的物理框架内运行,共享质量、惯性、接触力等属性。


  1. 丰富的LLM/VLM智能体接口


SimWorld提供标准Gym-like接口,与现有的强化学习管线和智能体框架无缝集成。


观测空间分为两类。视觉观测(第一人称的RGB图像、深度图、语义分割掩码)和结构化语义信息(语义场景图编码环境中的实体、属性和关系,以及GPS式定位信息)。


动作空间采用双层架构。高层语义动作用自然语言表达(如“坐在最近的椅子上”),低层原始动作提供细粒度控制(前进、转向、拾取、放下、坐下、开车门、骑滑板车等)。系统内置动作规划器(Action Planner),自动将高层意图解析为低层动作序列。例如,接收到“走到最近的椅子坐下”后,规划器先计算最短路径,生成一系列导航原语(navigate(0,1)→navigate(1,10)→...),到达目标后执行“坐下”动作。规划器支持两种执行模式。基于规则的执行器(使用抽象城市布局信息)和基于视觉的执行器(直接消费模拟器的视觉观测,与VLM/VLA端到端集成)。


SimWorld还支持两种运行模式。异步模式(每个智能体独立运行,适合大规模开放探索)和同步模式(所有智能体同步推进,适合需要可复现性的受控实验)。


  1. 多样的物理-社会推理场景


在上述基础上,SimWorld支持超越短期任务的长程目标——赚钱、发展职业轨迹、经营多智能体企业,策略决策随时间累积,社会动态影响结果。配套的三层评估框架覆盖总体表现(利润)、运营效能(成功率、能效)和行为特征(分享次数、投资次数)。


案例研究:一个“外卖”比赛


为展示SimWorld的完整能力,研究团队设计了一个配送任务(Delivery Task)。在程序化生成的城市中部署LLM驱动的配送智能体,让它们竞价抢单、取货配送、购买道具(如5倍加速滑板车)、管理能量(如买饮料恢复体力),以及通过分享订单实现多智能体协作。


图3:配送任务概览。一个需要多智能体协作与竞争的配送场景。每个智能体被赋予不同的性格(尽责、开放、外向、神经质)和初始状态,可以行动以成长、发展并最终最大化收益。


实验中,每个模型控制20个代理,运行5000步,每步发出2次API请求,平均每次约7000个token。研究团队采用ReAct提示框架明确分离推理和行动选择,对10个基础模型进行了三轮重复实验。


谁是最强“外卖员”?


图4:模型控制智能体的表现。指标报告为三次5000步模拟的均值(Avg)和标准差(Std)。


当九个模型在SimWorld的配送实验中展现出参差的表现时,最直觉的反应是给它们排名——谁赚得最多,谁最稳定,谁最差。我们确实能根据利润列看到清晰的排序。DeepSeek-V3(69.48)>Claude-3.5-Sonnet(69.07)>GPT-4o(43.91)>Gemini-2.5-Flash(42.42)>Gemini-2.0-Flash(28.72)>Qwen3-32B(24.73)>DeepSeek-Prover-V2(21.66)>QwQ(17.31)>GPT-4o-mini(0.00)。


但这种排名掩盖了更有价值的信息,因为不同模型的失败模式并不相同,它们停在了“能力金字塔”的不同层级上。配送任务所需的能力可以被分解为五个递进的层级,每一层的失败都指向一种不同性质的认知缺陷。


第一层:目标理解


能听懂“赚钱”这个目标吗?


GPT-4o-mini的所有指标为零——利润0.00、成功订单0.00、能效0.00、分享0.00、投资0.00。论文的判断是:“它并未真正理解目标,无法基于给定指令和上下文做出合理决策”("it does not truly understand the goals well enough to make reasonable decisions based on the given instructions and context")。


5000步,一步未动。不是做得差,是完全没有开始。


GPT-4o-mini接收到了规则说明、订单推送和地图信息,在字面意义上“理解”了每一个句子,却无法将这些句子组织成一个可执行的目标。原文可见研究团队清晰地定义了高层动作——竞标、取货订单、配送订单、共享订单、购买滑板车、购买饮料等——但GPT-4o-mini无法将这些动作按因果顺序编排成一串可执行的序列。


图5:配送任务中的分层动作空间设计。


这种“目标翻译”能力可能不是推理能力的线性延伸,而是一个独立的、当前某些模型完全缺失的能力维度。更强的模型(Claude、DeepSeek-V3)能通过更长的推理链隐式地完成这个翻译,但GPT-4o-mini在这道门槛前完全卡住了。


诊断:GPT-4o-mini停在金字塔的第一级——它甚至没有进入游戏。


第二层:交付闭环


能走完“竞价→取货→配送”这条因果链吗?


跨过第一层的模型都在做事情,但“做事情”和“完成事情”是两回事。图4的成功订单列精确地测量了这一点。



DeepSeek-Prover-V2和QwQ暴露了一种特殊的失败。它们并非不活跃——DeepSeek-Prover-V2有较高的分享次数(7.33±8.39),QwQ有一定的投资行为(3.33±2.52)——但它们几乎没有完成配送。DeepSeek-Prover-V2的成功订单是全部活跃模型中最低的(0.67±0.14)。


论文在模型竞争消融实验中对QwQ的观察也印证了这一点:它们“整体活跃度较低,导致竞价次数和订单获取率偏低”(“QwQ-32B and GPT-4o-mini are less active overall,leading to fewer bids and lower order acquisition rates”)。但图4显示QwQ的投资不为零(3.33),说明它并非完全不活跃——它在参与某些环节(如投资)的同时,未能走完交付闭环。


这是一种比GPT-4o-mini的完全失败更微妙的缺陷。模型理解任务,参与了一些环节,却无法将局部行为串联成完整的交付链条。“活跃但不产出”比“不活跃”更难诊断和修复。


诊断:DeepSeek-Prover-V2和QwQ勉强跨过了第一层,但在第二层断裂——它们有活动,但没有闭环。


第三层:资源与风险权衡


能在有限预算下做出连贯的决策吗?


跨过前两层的模型(Claude-3.5-Sonnet、DeepSeek-V3、GPT-4o、Gemini-2.5-Flash、Gemini-2.0-Flash、Qwen3-32B)都进入了第三层——它们能接单、配送、管理基本资源。但正是在这一层,六个模型展现出了截然不同的策略风格,也暴露了不同类型的权衡模式。


论文的核心观察是:在“优化峰值平均性能指标”与“确保一致、可预测的智能体行为”之间存在普遍的权衡("a prevalent trade-off between optimizing for peak average performance metrics and ensuring consistent,predictable agent behavior")。但不可预测性在不同模型身上的表现形式并不相同:


利润vs.稳定性。DeepSeek-V3和Claude-3.5-Sonnet像高风险高回报的投机者,利润最高但波动剧烈;Gemini-2.5-Flash像保守的储蓄者,利润中等但几乎零波动;GPT-4o像稳健的投资者,处于两者之间。



(表格已重排,非原文指标。GPT-4o-mini已排除。)


投资vs.效率。Claude-3.5-Sonnet和DeepSeek-V3像积极的投资人,投资次数最多,但Claude的投资更“精准”,每单位能量产生的收入更高;Qwen3-32B像高效的工人,能效很高,但总量太小。


分享vs.孤立。Claude-3.5-Sonnet像乐于分享的合作者,分享次数最多但不稳定;DeepSeek-V3像孤立的独行侠,分享极少但非常稳定;GPT-4o像几乎不合作的独狼,分享几乎为零。


诊断:没有模型在这一层达到完美的策略一致性。表现最好的DeepSeek-V3和Claude-3.5-Sonnet勉强攀到了第三层的顶部,但通过不同的路径——DeepSeek-V3靠稳定的孤立策略和高投资,Claude-3.5-Sonnet靠高能效和高合作(但不稳定)。Gemini-2.5-Flash用“不做冒险决策”的策略绕过了第三层的部分问题,但代价是平庸的表现。


第四层:社会推理


能理解“别人”并据此调整行为吗?


配送任务中的社会维度主要体现在两个机制上——竞价竞争和订单分享。图4的分享次数列和模型竞争消融实验(原文Section 3.3)共同测量了这一层。


消融实验揭示了三种定价模式:


  • 灵活定价型(Claude-3.7-Sonnet、Gemini-2.5-Flash、Gemini-2.0-Flash):出价分布广,根据竞争态势调整。中标率较高。


  • 掠夺定价型(DeepSeek-Prover-V2、Qwen3-32B):经常报低价,在直接对抗中胜率最高。但低价中标意味着利润率被压缩——“赢了战役、输了战争”。这两个模型的利润确实很低(21.66、24.73)。


  • 高价滞销型(GPT-4o、LLaMA-3.2-11b):出价偏高,中标率低。GPT-4o在消融中处于劣势,但在主实验中利润排第三——因为它在主实验中不需要与其他模型直接竞争。


图6:竞价行为与评估结果。(a)各模型的竞价价格分布(小提琴图),红色点为成功接受的竞价。低价虽然增加中标概率,但往往以利润率为代价。(b)模型间两两对抗的胜-负矩阵,红色为更多胜利,蓝色为更多失败。


值得注意的是,这三种策略的“优劣”高度依赖环境结构。在混合竞争环境中,灵活定价和掠夺定价各有优势;在单模型环境中,策略差异的影响被弱化。这说明AI智能体的“社会能力”不是绝对的,而是相对于竞争环境而言的。


分享行为是配送任务中唯一的合作机制。图4的分享列揭示了合作行为的两个独立维度——水平(均值)和稳定性(标准差):



(表格已经重排,变异系数为衍生计算,非原文指标。)


Claude-3.5-Sonnet平均分享最多,但也不稳定。DeepSeek-Prover-V2更极端——变异系数高达1.14。这意味着两个模型在合作行为上的“判断力”是可疑的。它们不是因为评估了合作是否有利而选择分享,而更可能是因为推理链的随机性在某些运行中经过了“分享”语义区域。


真正的社会推理应该是在对方信誉好且订单互补时分享,在对方是竞争对手时保留。但图4的数据暗示,目前的智能体在“分享”与“不分享”之间的切换更接近策略漂移而非社交判断。


环境配置消融实验提供了一个更细致的视角。论文发现订单充裕时分享行为增加——“随着资源充裕度提高,智能体表现出更强的发起和完成共享配送的倾向,这可能是通过协作来降低能量成本的手段”("as resource abundance increases,agents demonstrate a higher tendency to initiate and complete shared deliveries,likely as a means to reduce energy costs through collaboration")。这看起来像社会推理的涌现,但更可能是一种更简单的机制在起作用,即资源充裕时prompt中的“合作”相关语境被激活的概率更高。这是在使用统计相关性模仿社会认知,而非真正的“理解他人”。


诊断:所有模型在第四层都踉跄。它们的“社会行为”更多是推理链随机性的副产品,而非对社会情境的判断。但不同模型的“社会缺陷”类型不同——Claude是“有时过度合作有时完全不合作”,DeepSeek-V3是“稳定地有限合作”,GPT-4o是“稳定地几乎不合作”。


第五层:策略一致性


能在5000步内维持一个连贯的“自我”吗?


这是金字塔的最高层,也是所有模型共同失败的一层。它的证据不在某一个指标中,而是分散在图4的所有标准差列里。


  • Claude-3.5-Sonnet的不稳定性集中在分享行为,利润和成功订单的方差也大,但能效相对稳定。


  • DeepSeek-V3的不稳定性集中在利润,但成功订单、分享和投资都相对稳定。它的不稳定性不是“策略漂移”,而是“策略结果的波动”。


  • Gemini-2.0-Flash的不稳定性分散在利润和成功订单上,但分享和投资的方差较小。


  • GPT-4o的利润方差中等,但分享几乎为零且极度稳定,投资也很稳定。它的“一致性”实际上是一种一致的不作为。


    • 这些差异指向一个更深层的诊断:策略不一致性有多种类型,需要不同的修复方案。


    Claude式的不一致(合作行为在运行间剧烈波动)可能需要更强的跨步骤状态记忆或策略锚定机制。DeepSeek-V3式的不一致(利润波动但行为稳定)可能不是推理缺陷,而是环境随机性在结果层面的放大——同样的策略在不同的订单流和竞争条件下自然会产生不同的利润。Gemini-2.5-Flash的极端一致性(利润变异系数仅0.07)可能是过度保守策略的副产品——它通过拒绝风险来消除波动,但也放弃了上升空间。


    人格消融实验(Section 3.3)提供了策略一致性的另一个视角。论文使用表现最好的模型控制20个智能体,每个Big Five维度分配给2个智能体。Pearson相关矩阵显示人格设定确实塑造了行为——尽责性与竞价胜率正相关(r=0.65),宜人性与“什么都不做”强负相关,开放性与配送订单数负相关,开放性与购买滑板车正相关,外向性与购买饮料正相关。


    图7:人格对智能体表现和行为的影响。尽责性与竞价胜率正相关(r=0.65),与竞价次数负相关(r=-0.64);宜人性与“什么都不做”次数强负相关(r=-0.70);开放性与配送订单数负相关(r=-0.70)。


    这里有一个被低估的亮点:Big Five人格特质不仅显著影响了智能体的决策策略(尽责的更勤奋、开放的更爱冒险),而且这些影响可以通过线性回归量化(相关系数在0.63–0.70之间)。这意味着“给NPC一个性格”不再是一个模糊的设计直觉,而是一个可以被精确调控的工程参数——对游戏设计师而言,AI NPC的“性格”可以成为可调校的工具,就像物理引擎中的重力参数一样。


    但即使在同一人格设定下,同一模型的不同运行之间仍然存在显著方差。人格设定塑造了统计意义上的行为倾向,但没有塑造出我们期望于一个“性格稳定的人”的那种跨时间连贯性。LLM的每一步推理都是从prompt重新开始的,人格设定只是一个增加某些输出概率的偏置项,而非一个持续影响感知、记忆和决策的内在结构。


    诊断:没有模型到达金字塔的顶端。策略一致性是当前所有模型的共同短板——不是它们不知道该怎么做,而是它们无法在长时间跨度中持续地做“自己知道正确的事”。


    诊断总结

    把五层诊断叠在一起,我们就能看到一幅能力渐次缺失的场景



    从第三层到第四层有一个大断裂。第三层的问题可以通过更强的推理模型来部分解决(GPT-4o、Claude、DeepSeek-V3的表现优于其他模型),但第四层和第五层的问题似乎对所有模型都平等地存在——无论推理能力多强,策略一致性都无法自动获得。


    这组诊断的意义不在于嘲讽AI“连外卖都送不好”。但是如果你想让AI智能体在真实世界中可靠地行动,你可能需要依次解决目标分解、交付闭环、策略权衡、社会认知和策略一致性这五个问题。SimWorld的价值正在于让这些原本隐性的能力缺陷变得可见、可量化、可复现。


    这不是一场AI之间的竞赛,而是一场AI与自身能力边界的较量。当今最强的LLM在“送外卖”这件看似简单的事情上表现参差——DeepSeek-V3和Claude-3.5-Sonnet赚了最多的钱但行为不稳定,Gemini-2.5-Flash最稳定但收益中等,GPT-4o-mini完全不理解目标。如果连送外卖都做不到完美,那我们对AI智能体“自主赚钱”以及更进一步的AGI的期待需要校准。


    产业对照


    从Stanford Smallville的25个AI角色在一个简陋的2D像素小镇里过日子,到SimWorld把数十个LLM智能体放进虚幻引擎5构建的3D城市里送外卖——这条技术路径的演进速度令人瞩目。而当我们注意到Krafton用同一个引擎做《inZOI》、Rockstar为NPC导航系统申请专利、腾讯报告1.1亿用户已经体验过AI NPC时,会发现AI研究者和游戏开发者的工作正在从平行线变成交汇线。


    SimWorld选择虚幻引擎5作为底层引擎,这并非偶然。UE5是当今游戏工业最主流的引擎之一,这意味着SimWorld所构建的世界,在视觉和物理真实度上已经与商业游戏站在同一维上。而当我们把目光投向产业界,会发现一场静悄悄的合流正在发生。


    模拟器与游戏对照



    Krafton的《inZOI》同样基于UE5,同样追求全城同时模拟的体验——官网宣称“整个城市不断同时模拟”(the entire city is constantly being simulated all at once),在2025年以抢先体验形式上线Steam后,预计2026年上半年登陆PS5。它的NPC行为同样由AI驱动,只不过目的是娱乐玩家而非训练智能体。


    图8:《inZOI》游戏截图


    Rockstar的《GTA 6》(预计2026年11月发售)走的是另一条路。Take-Two Interactive的CEO Strauss Zelnick明确声明:“生成式AI在Rockstar Games的制作中零参与”(Generative AI has zero part in what Rockstar Games is building)。GTA 6的世界是手工打造的巨城,NPC行为由传统行为树和多项专利技术(包括新的NPC虚拟导航系统和基于环境条件的动态动画系统)驱动,追求极致的可控性和叙事品质。


    米哈游创始人蔡浩宇的新公司Anuttacon则走出了第三条路:《Whispers from the Star》以AI实时对话为核心玩法——玩家通过自然语言与AI角色Stella互动,引导她在太空生存场景中行动。这款游戏本质上是把SimWorld式的“LLM驱动智能体”概念直接做成了商业产品,只不过SimWorld里的受自然语言约束的配送员变成了幸存者。


    图10:《Whispers from the Star》官网


    两条路线的分歧:可控性vs.涌现性


    上述对照揭示了游戏工业在AI NPC问题上的根本张力。


    GTA 6路线选择完全的可控性——不用生成式AI,所有内容由艺术家和设计师手工打造。代价是极高的制作成本和漫长的开发周期(GTA 6的开发周期已超过10年),但回报是对交互的精确控制。


    SimWorld/inZOI路线则拥抱涌现性——让LLM驱动的NPC在物理世界中自主行动,接受一定程度的不确定性和不可预测性。SimWorld的配送实验已经揭示了这种涌现性的两面:一方面,人格设定确实塑造了可预测的行为模式(尽责的智能体更勤奋);另一方面,即使是当今最强的模型也会做出不理性的决策(花光积蓄囤积滑板车)。


    这两条路线并非互斥。未来的游戏很可能是混合架构——核心叙事由设计师把控(GTA 6路线),而世界填充和背景NPC行为由LLM驱动(SimWorld路线)。


    这条可控性-涌现性的光谱已经在产业实践中先行展开。当SimWorld还在用配送任务验证LLM智能体的行为逻辑时,中国的游戏公司已经把AI NPC推向了上亿用户——腾讯的《和平精英》AI NPC累计体验用户过亿,网易的《逆水寒》甚至搭建了游戏内的“大模型竞技场”让玩家直接评判不同模型的NPC表现,巨人网络等公司则将AI能力嵌入现有玩法的具体环节(动态剧情、策略预判)。但这些实践与SimWorld之间形成了清晰的分野。SimWorld赋予智能体完全的自主性——经济动机、人格特质、竞争合作;腾讯和网易的AI NPC能交互,但行为仍受游戏框架约束;更多的公司(如巨人网络)则走得更保守,只在特定环节引入AI。核心张力始终是同一对矛盾,即可控性与涌现性之间的平衡,而产业界人士正在这条光谱上寻找各自的落脚点。


    从产业端看,SimWorld提供了一个统一的、可复现的、可扩展的试验场,让我们能够系统地测量“AI离在真实世界中生存还有多远”。这个测量结果也在告诉游戏公司一个重要的信息。你们的AI NPC在各种意义上都可能比你以为的更笨——或者更聪明——取决于你用的是哪个模型,以及你给了它什么样的prompt。


    该研究的局限性


    研究团队虽未在论文中明确列出“局限性”章节,但从实验设计和结果中可以识别出以下问题:


    1. 场景验证单一:虽然SimWorld号称支持“赚钱、职业发展、经营企业”等长程目标,但论文仅展示了配送这一种场景。系统在更复杂的社会推理场景(如车联网)中的表现仍有待验证。


    2. 模型评估不够深入:主要关注利润等宏观指标,对智能体的推理质量、常识错误(只买不用的滑板车)、安全风险等缺乏细粒度分析。这些“错误行为”实际上可能蕴含着更深层的研究价值。


    3. 计算成本高昂:每步2次API调用、每次约7000个token,5000步×20个代理意味着巨大的API开销,这在一定程度上限制了实验的可扩展性和可复现性。


    4. 物理-社会耦合尚浅:配送任务中的“社会”维度主要限于竞价和分享订单,尚未涉及更复杂的社会结构(如组织、规范、文化)。


    5. 缺乏真实世界验证:所有实验均在模拟环境中进行,智能体在SimWorld中学到的策略能否迁移到真实世界,仍是一个开放问题。


    6. 论文性质:虽然论文已被NeurIPS 2025接收,但目前的案例研究主要关注利润等宏观指标,对智能体的推理质量、常识错误、安全风险等缺乏细粒度分析。作为一个平台型工作,SimWorld的系统说明属性仍强于严格评估,社区需要在更多样化的场景和更严格的对照实验中检验其能力。


    结语


    SimWorld作为开源项目发布,这本身就值得肯定。在游戏引擎和AI模型都日益封闭的趋势下,一个基于UE5的、开放的、可定制的世界模拟器,为跨学科合作(机器人学、社会科学、商业、公共卫生、教育)提供了公共基础设施。SimWorld能不能成为它所期望的“奠基性平台”,取决于社区能否在配送任务之外,构建出更多样、更有挑战性的场景——那些真正考验AI智能体在物理-社会世界中“生存能力”的场景。


    参考文献


    1.Ren,J.,Zhuang,Y.,Ye,X.,Mao,L.,He,X.,Shen,J.,Dogra,M.,Liang,Y.,Zhang,R.,Yue,T.,Yang,Y.,Liu,E.,Wu,R.,Benavente,K.,Nagaraju,R.M.,Faayez,M.,Zhang,X.,Sharma,D.V.,Zhong,X.,Ma,Z.,Shu,T.,Hu,Z.,&Qin,L.(2026).SimWorld:An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds.arXiv:2512.01078v2.https://arxiv.org/abs/2512.01078


    2.KRAFTON.(2025).KRAFTON Announces inZOI for PlayStation 5,Launching in H1 2026.https://www.krafton.com/en/news/press/krafton-announces-inzoi-for-playstation-5-launching-in-h1-2026/


    3.Rockstar Games.(2025).Grand Theft Auto VI is Now Coming May 26,2026.https://www.rockstargames.com/newswire/article/258aa538o412ok/grand-theft-auto-vi-is-now-coming-may-26-2026


    4.Anuttacon.“Whispers from the Star.”Anuttacon,14 Aug.2025,https://wfts.anuttacon.com/.

    AI原生产品日报频道: 前沿科技
    本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
    如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
    正在改变与想要改变世界的人,都在 虎嗅APP
    赞赏
    关闭赞赏 开启赞赏

    支持一下   修改

    确定