当前最强的AI大语言模型在虚拟城市中执行“送外卖”任务时表现参差，暴露了其在开放物理-社会世界中行动能力的结构性缺陷。SimWorld模拟器通过构建真实、开放、可计算的世界，为诊断和推进具身智能提供了关键试验场。 ## 1. AI智能体的现实困境：从考试天才到“送外卖”新手文章开篇以Meta邮件误删等真实事故为例，指出LLM在封闭、结构化任务中表现卓越（如GPT-4o通过律师考试），但在开放世界任务中却困难重重。研究团队将十个顶级LLM放入虚幻引擎5构建的3D城市中执行配送任务，结果令人错愕：GPT-4o-mini完全无法理解“赚钱”目标，各项指标为零；Claude-3.5-Sonnet利润最高但会花光积蓄购买从不使用的滑板车；DeepSeek-Prover-V2决策反复横跳。这精确揭示了当前AI研究的结构性盲区：擅长在规则明确的环境中“做题”，却缺乏在动态、嘈杂的物理-社会世界中“活劳动”的能力。 ## 2. SimWorld的诞生：填补真实世界模拟的空白针对现有模拟平台的不足，SimWorld应运而生。它旨在填补三个层面的空白：游戏化平台（如Minecraft）物理引擎简陋、社会结构单薄；领域专用模拟器（如CARLA）场景有限、不够通用；社交沙盒（如Smallville）规模小、脚本性高。SimWorld是唯一在“开放世界”、“物理/社会真实度”、“LLM原生接口”三个维度上全面达标的模拟器，其核心底气源于强大的虚幻引擎5。 ## 3. 三大核心设计：真实、开放与智能体友好 SimWorld采用三层架构，其核心设计围绕三大支柱展开。**真实的世界模拟**：基于UE5提供高保真物理效果（重力、动量、碰撞）和程序化生成的无限城市，并支持LLM驱动的自然语言场景实时编辑。**丰富的智能体接口**：提供标准Gym-like接口，支持视觉和语义观测，并采用高层语义动作与低层原始动作相结合的双层动作空间，内置动作规划器。**多样的推理场景**：支持智能体追求“赚钱”、“职业发展”等长程目标，并配备了覆盖总体表现、运营效能和行为特征的三层评估框架。 ## 4. 深度诊断：LLM能力缺失的五层金字塔通过对配送实验结果的细致分析，文章将AI智能体所需的能力分解为五个递进层级，并诊断了各模型的缺陷。**第一层：目标理解** - GPT-4o-mini未能跨过此层，完全无法将指令组织成可执行的目标。**第二层：交付闭环** - DeepSeek-Prover-V2和QwQ虽有活动，但无法走完“竞价→取货→配送”的完整因果链。**第三层：资源与风险权衡** - 跨过前两层的模型在此展现出不同策略风格，但普遍存在性能与行为可预测性之间的权衡，没有模型达到完美的一致性。**第四层：社会推理** - 所有模型在竞价竞争和订单分享行为上均表现踉跄，其“社会行为”更像是推理随机性的副产品，而非真正的社会情境判断。**第五层：策略一致性** - 这是所有模型的共同短板，它们无法在长时间跨度中维持一个连贯的“自我”和决策逻辑。 ## 5. 产业对照：游戏与AI研究的静悄悄合流 SimWorld选择UE5作为底层，使其与游戏产业前沿技术同频。Krafton的《inZOI》、Rockstar的《GTA 6》（明确不用生成式AI）以及Anuttacon的《Whispers from the Star》代表了游戏工业在AI NPC问题上的不同路线，核心张力在于**可控性（GTA 6）与涌现性（SimWorld/inZOI）** 之间的平衡。中国的游戏公司（如腾讯、网易）已在实际产品中大规模部署AI NPC，但行为受框架约束，与SimWorld赋予完全自主性的研究路径形成分野。 ## 6. 价值与局限：开放平台的基础设施意义 SimWorld作为开源项目，为跨学科研究提供了重要的公共基础设施，其价值在于让AI智能体隐性的能力缺陷变得**可观测、可量化、可复现**。同时，文章也指出了其局限性，包括场景验证目前较为单一（仅深度展示了配送任务）、计算成本高昂、物理-社会耦合尚浅以及缺乏真实世界验证。

2026-04-11 14:42

SimWorld：尝试给AI智能体造一个真实世界

集智俱乐部

本文来自微信公众号：集智俱乐部，作者：任筱芃

在「游戏✖️复杂科学」读书会前两期的讨论中，我们从简单规则出发，看到计算机如何通过最基本的机制生成复杂结构，这也构成了复杂性科学的重要起点。进一步地，我们将这种“规则生成世界”的思想带入交互系统，尝试让知识不再被线性传递，而是在环境、行动与反馈的循环中被体验与理解。

随着实时渲染与交互技术的发展，知识开始嵌入空间与系统之中，通过探索逐步涌现。而当程序化生成与生成式AI被引入，虚拟世界进一步获得“自我生长”的能力——地形、生态乃至社会结构，都可以在规则与算法中不断演化。

在这样的路径上，游戏逐渐从内容媒介转变为一种方法：它既是复杂系统的实验场，也是理解现实的一种方式。我们将在读书会第三期分享交流，当世界本身变得可计算、可生成，我们或许正在进入一种新的认知框架——理解与行动，不再被给予，而是在持续的互动中不断生成。

关键词：程序化生成（Procedural Generation），具身智能（Embodied AI），世界模拟器（World Simulator），多智能体系统（Multi-agent System），虚幻引擎5（Unreal Engine 5），LLM智能体（LLM Agent）

论文题目：SimWorld:An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds

论文链接：https://neurips.cc/virtual/2025/poster/119002（扩展更新版：https://arxiv.org/abs/2512.01078）

发表时间：2025年12月

论文来源：NeurIPS

楔子

LLM的技术缺口并非抽象的学术命题。它已经以事故的形式，在真实世界中示现。2026年春节，Meta的Summer Yue将开源AI智能体OpenClaw接入工作邮箱整理邮件。她下达了明确指令——“仅建议归档或删除的邮件名单，未经我批准，绝不擅自执行操作”。OpenClaw仍然失控，疯狂删除了200多封邮件，最终不得不狂奔去拔网线才终止操作。同年3月，一位开发者让AI编程助手协助服务器迁移，结果AI在无人监督下自主执行了破坏性命令，瞬间抹除了2.5年的生产数据及全部备份。

图0：X.com截图

这些事故发生在数字世界中，操作对象不过是邮件和文件。而当同样的智能体被放进城市街道、驾驶车辆、与行人互动时，失控的代价将从删库升级为什么就难以言说了。但事故只是问题的一面。另一面更微妙，即使AI没有“失控”，它也可能根本不理解自己被要求做什么。

2025年，GPT-4o在美国律师资格考试中超越了90%的人类考生。同年，Claude-3.5-Sonnet在研究生级别推理基准GPQA上得分超过领域专家。Gemini在蛋白质结构预测上逼近实验精度。DeepSeek-V3以不到600万美元的训练成本，在多项基准测试中追平了花费数十倍资源的竞争对手。然后，都给我去送外卖吧。<(￣︶￣)↗[GO!]

把当时最强的十个大语言模型放进了虚幻引擎5构建的3D城市里，让它们竞价接单、取货配送、管理能量和资金。结果令人错愕。GPT-4o-mini的所有指标为零——它连表现出理解“赚钱”是什么意思的能力都没有；Claude-3.5-Sonnet虽然拿到了最高利润，但会花光全部积蓄买滑板车却从不使用；DeepSeek-Prover-V2的决策反复横跳，标准差几乎和均值一样大。通过律师考试的天才，送不了外卖。解得出奥数金牌的模型，不理解“先接单，再取货，再送货”这个几乎任何人都能理解的因果链。

这项研究精确地指向了当前AI研究的一个结构性盲区。我们擅长训练模型在结构化的、规则明确的环境中做"题"——这类环境的特征是状态空间有限、反馈信号明确、动作语义封闭，却几乎没有办法评估它们在开放的、嘈杂的、充满竞争与合作的物理-社会世界中"活劳动"的能力——那里的状态空间开放且动态演化，反馈延迟、稀疏且多义，动作的因果后果跨越时间步骤累积。而后者才是AI智能体最终必须面对的战场。

症结之一在于缺乏合适的试验场。现有平台要么物理引擎简陋，要么领域过于狭窄，要么社会结构单薄。SimWorld试图填补这一空白。它是一个基于虚幻引擎5的开源模拟器，兼具真实的物理引擎、程序化生成的无限城市、以及原生支持LLM/VLM的智能体接口。SimWorld不让AI做题刷榜，要让AI真正面对"生活"，使原本隐性的能力缺陷变得可观测、可量化、可复现。

研究背景与问题

AI智能体的数字-物理鸿沟

近年来，以GPT-4、Claude、Gemini为代表的大模型智能体在结构化领域（数学、编程、网页浏览）取得了长足进步。然而，这些环境相对干净，也即是规则明确、反馈清晰的。相比之下，智能体最终被期望在其中运作的物理-社会世界，本质上是复杂、嘈杂、动态和混沌的。

要推进具身智能体的发展，研究团队需要一种新型的模拟环境。然而，现有的世界模拟器存在三个层面的不足。

三个层次的“不够”

游戏化平台不够真。Minecraft等平台虽然为具身交互提供了可访问的环境，但物理引擎简陋——Minecraft依赖离散的方块机制，没有真实的重力或惯性，社会结构单薄，限制了向真实世界的泛化。

领域专用模拟器不够通用。CARLA专注自动驾驶（仅有15个场景）、AI2-THOR聚焦家庭机器人、Habitat 3.0面向室内协作——它们各自深耕一个狭窄的领域，场景有限、任务单一，无法支持开放世界式的多维度研究。

社交沙盒不够深。Stanford的“生成式智能体”实验（Smallville）和Virtual Village等项目模拟了人际互动，但规模小（Smallville仅25个角色）、脚本性高、缺乏物理基础，且不支持LLM原生接口。

图1：SimWorld与现有模拟器的对比。

在“开放世界”（程序化生成+语言可控编辑）、“物理/社会真实度”、“动作空间”（抽象层级+开放词汇）等维度上，SimWorld是唯一全面打勾的模拟器。其他平台如Minedojo（Minecraft）、CARLA（自动驾驶）、Habitat 3.0（家庭机器人）、Genesis（机器人）等均在至少一个关键维度上缺失。

SimWorld同时满足真实（UE5物理引擎）、开放（程序化生成无限城市）、LLM原生（Gym-like接口+开放词汇动作空间）三个维度。

SimWorld三大核心设计

SimWorld采用三层架构（图2）如下。底层是虚幻引擎后端（C++），负责高保真渲染和物理模拟；中间是环境层（Python），提供程序化城市生成、交通系统和标准化的Gym-like接口；顶层是智能体层（Python），集成LLM/VLM推理引擎、观测空间和动作规划器。三层通过UnrealCV+通信模块（TCP协议）连接，形成完整的“感知-规划-行动”闭环。

图2：SimWorld架构图。

真实、开放的世界模拟

SimWorld的核心底气来自强大的虚幻引擎5。

在场景层面，SimWorld支持两种模式。100多个手工精选场景（涵盖古镇、自然风光、未来城市、奇幻世界等多种风格）和程序化自动生成的城市。程序化生成采用模块化管线（基于四叉树数据结构），依次生成道路网络、建筑布局和街道元素（树木、路锥、长椅、停放的车辆），所有参数（城市规模、建筑密度、车辆和行人数）均可自定义，支持理论上无限的环境扩展。

更值得注意的是LLM驱动的场景编辑功能。用户或AI智能体可以用自然语言实时修改场景——例如“在医院大门旁的钟楼附近加一些桌子和树木”。系统通过检索增强生成（RAG）的LLM场景智能体来理解指令，从资产库中检索匹配对象并放置到指定位置。如果资产库中没有合适的对象，系统会调用Text-to-3D生成模型（Hunyuan3D）来合成新的3D资产，自动赋予材质、光照和碰撞属性后集成到环境中。

在物理层面，SimWorld使用了更完整的物理动力学参量。重力、动量、碰撞响应、滑动、绊倒等真实物理模拟效果，远非Minecraft式的离散方块可比。系统还支持天气和光照变化（雨、雪、雾、方向光、环境光），以及由PID控制器驱动的交通系统（车辆运动、行人流、交通信号灯同步）。

系统支持三种具身形态——人形、车辆和机器人——在统一的物理框架内运行，共享质量、惯性、接触力等属性。

丰富的LLM/VLM智能体接口

SimWorld提供标准Gym-like接口，与现有的强化学习管线和智能体框架无缝集成。

观测空间分为两类。视觉观测（第一人称的RGB图像、深度图、语义分割掩码）和结构化语义信息（语义场景图编码环境中的实体、属性和关系，以及GPS式定位信息）。

动作空间采用双层架构。高层语义动作用自然语言表达（如“坐在最近的椅子上”），低层原始动作提供细粒度控制（前进、转向、拾取、放下、坐下、开车门、骑滑板车等）。系统内置动作规划器（Action Planner），自动将高层意图解析为低层动作序列。例如，接收到“走到最近的椅子坐下”后，规划器先计算最短路径，生成一系列导航原语（navigate(0,1)→navigate(1,10)→...），到达目标后执行“坐下”动作。规划器支持两种执行模式。基于规则的执行器（使用抽象城市布局信息）和基于视觉的执行器（直接消费模拟器的视觉观测，与VLM/VLA端到端集成）。

SimWorld还支持两种运行模式。异步模式（每个智能体独立运行，适合大规模开放探索）和同步模式（所有智能体同步推进，适合需要可复现性的受控实验）。

多样的物理-社会推理场景

在上述基础上，SimWorld支持超越短期任务的长程目标——赚钱、发展职业轨迹、经营多智能体企业，策略决策随时间累积，社会动态影响结果。配套的三层评估框架覆盖总体表现（利润）、运营效能（成功率、能效）和行为特征（分享次数、投资次数）。

案例研究：一个“外卖”比赛

为展示SimWorld的完整能力，研究团队设计了一个配送任务（Delivery Task）。在程序化生成的城市中部署LLM驱动的配送智能体，让它们竞价抢单、取货配送、购买道具（如5倍加速滑板车）、管理能量（如买饮料恢复体力），以及通过分享订单实现多智能体协作。

图3：配送任务概览。一个需要多智能体协作与竞争的配送场景。每个智能体被赋予不同的性格（尽责、开放、外向、神经质）和初始状态，可以行动以成长、发展并最终最大化收益。

实验中，每个模型控制20个代理，运行5000步，每步发出2次API请求，平均每次约7000个token。研究团队采用ReAct提示框架明确分离推理和行动选择，对10个基础模型进行了三轮重复实验。

谁是最强“外卖员”？

图4：模型控制智能体的表现。指标报告为三次5000步模拟的均值（Avg）和标准差（Std）。

当九个模型在SimWorld的配送实验中展现出参差的表现时，最直觉的反应是给它们排名——谁赚得最多，谁最稳定，谁最差。我们确实能根据利润列看到清晰的排序。DeepSeek-V3（69.48）>Claude-3.5-Sonnet（69.07）>GPT-4o（43.91）>Gemini-2.5-Flash（42.42）>Gemini-2.0-Flash（28.72）>Qwen3-32B（24.73）>DeepSeek-Prover-V2（21.66）>QwQ（17.31）>GPT-4o-mini（0.00）。

但这种排名掩盖了更有价值的信息，因为不同模型的失败模式并不相同，它们停在了“能力金字塔”的不同层级上。配送任务所需的能力可以被分解为五个递进的层级，每一层的失败都指向一种不同性质的认知缺陷。

第一层：目标理解

能听懂“赚钱”这个目标吗？

GPT-4o-mini的所有指标为零——利润0.00、成功订单0.00、能效0.00、分享0.00、投资0.00。论文的判断是：“它并未真正理解目标，无法基于给定指令和上下文做出合理决策”（"it does not truly understand the goals well enough to make reasonable decisions based on the given instructions and context"）。

5000步，一步未动。不是做得差，是完全没有开始。

GPT-4o-mini接收到了规则说明、订单推送和地图信息，在字面意义上“理解”了每一个句子，却无法将这些句子组织成一个可执行的目标。原文可见研究团队清晰地定义了高层动作——竞标、取货订单、配送订单、共享订单、购买滑板车、购买饮料等——但GPT-4o-mini无法将这些动作按因果顺序编排成一串可执行的序列。

图5：配送任务中的分层动作空间设计。

这种“目标翻译”能力可能不是推理能力的线性延伸，而是一个独立的、当前某些模型完全缺失的能力维度。更强的模型（Claude、DeepSeek-V3）能通过更长的推理链隐式地完成这个翻译，但GPT-4o-mini在这道门槛前完全卡住了。

诊断：GPT-4o-mini停在金字塔的第一级——它甚至没有进入游戏。

第二层：交付闭环

能走完“竞价→取货→配送”这条因果链吗？

跨过第一层的模型都在做事情，但“做事情”和“完成事情”是两回事。图4的成功订单列精确地测量了这一点。

DeepSeek-Prover-V2和QwQ暴露了一种特殊的失败。它们并非不活跃——DeepSeek-Prover-V2有较高的分享次数（7.33±8.39），QwQ有一定的投资行为（3.33±2.52）——但它们几乎没有完成配送。DeepSeek-Prover-V2的成功订单是全部活跃模型中最低的（0.67±0.14）。

论文在模型竞争消融实验中对QwQ的观察也印证了这一点：它们“整体活跃度较低，导致竞价次数和订单获取率偏低”（“QwQ-32B and GPT-4o-mini are less active overall,leading to fewer bids and lower order acquisition rates”）。但图4显示QwQ的投资不为零（3.33），说明它并非完全不活跃——它在参与某些环节（如投资）的同时，未能走完交付闭环。

这是一种比GPT-4o-mini的完全失败更微妙的缺陷。模型理解任务，参与了一些环节，却无法将局部行为串联成完整的交付链条。“活跃但不产出”比“不活跃”更难诊断和修复。

诊断：DeepSeek-Prover-V2和QwQ勉强跨过了第一层，但在第二层断裂——它们有活动，但没有闭环。

第三层：资源与风险权衡

能在有限预算下做出连贯的决策吗？

跨过前两层的模型（Claude-3.5-Sonnet、DeepSeek-V3、GPT-4o、Gemini-2.5-Flash、Gemini-2.0-Flash、Qwen3-32B）都进入了第三层——它们能接单、配送、管理基本资源。但正是在这一层，六个模型展现出了截然不同的策略风格，也暴露了不同类型的权衡模式。

论文的核心观察是：在“优化峰值平均性能指标”与“确保一致、可预测的智能体行为”之间存在普遍的权衡（"a prevalent trade-off between optimizing for peak average performance metrics and ensuring consistent,predictable agent behavior"）。但不可预测性在不同模型身上的表现形式并不相同：

利润vs.稳定性。DeepSeek-V3和Claude-3.5-Sonnet像高风险高回报的投机者，利润最高但波动剧烈；Gemini-2.5-Flash像保守的储蓄者，利润中等但几乎零波动；GPT-4o像稳健的投资者，处于两者之间。

（表格已重排，非原文指标。GPT-4o-mini已排除。）

投资vs.效率。Claude-3.5-Sonnet和DeepSeek-V3像积极的投资人，投资次数最多，但Claude的投资更“精准”，每单位能量产生的收入更高；Qwen3-32B像高效的工人，能效很高，但总量太小。

分享vs.孤立。Claude-3.5-Sonnet像乐于分享的合作者，分享次数最多但不稳定；DeepSeek-V3像孤立的独行侠，分享极少但非常稳定；GPT-4o像几乎不合作的独狼，分享几乎为零。

诊断：没有模型在这一层达到完美的策略一致性。表现最好的DeepSeek-V3和Claude-3.5-Sonnet勉强攀到了第三层的顶部，但通过不同的路径——DeepSeek-V3靠稳定的孤立策略和高投资，Claude-3.5-Sonnet靠高能效和高合作（但不稳定）。Gemini-2.5-Flash用“不做冒险决策”的策略绕过了第三层的部分问题，但代价是平庸的表现。

第四层：社会推理

能理解“别人”并据此调整行为吗？

配送任务中的社会维度主要体现在两个机制上——竞价竞争和订单分享。图4的分享次数列和模型竞争消融实验（原文Section 3.3）共同测量了这一层。

消融实验揭示了三种定价模式：

灵活定价型（Claude-3.7-Sonnet、Gemini-2.5-Flash、Gemini-2.0-Flash）：出价分布广，根据竞争态势调整。中标率较高。
掠夺定价型（DeepSeek-Prover-V2、Qwen3-32B）：经常报低价，在直接对抗中胜率最高。但低价中标意味着利润率被压缩——“赢了战役、输了战争”。这两个模型的利润确实很低（21.66、24.73）。
高价滞销型（GPT-4o、LLaMA-3.2-11b）：出价偏高，中标率低。GPT-4o在消融中处于劣势，但在主实验中利润排第三——因为它在主实验中不需要与其他模型直接竞争。

图6：竞价行为与评估结果。(a)各模型的竞价价格分布（小提琴图），红色点为成功接受的竞价。低价虽然增加中标概率，但往往以利润率为代价。(b)模型间两两对抗的胜-负矩阵，红色为更多胜利，蓝色为更多失败。

值得注意的是，这三种策略的“优劣”高度依赖环境结构。在混合竞争环境中，灵活定价和掠夺定价各有优势；在单模型环境中，策略差异的影响被弱化。这说明AI智能体的“社会能力”不是绝对的，而是相对于竞争环境而言的。

分享行为是配送任务中唯一的合作机制。图4的分享列揭示了合作行为的两个独立维度——水平（均值）和稳定性（标准差）：

（表格已经重排，变异系数为衍生计算，非原文指标。）

Claude-3.5-Sonnet平均分享最多，但也不稳定。DeepSeek-Prover-V2更极端——变异系数高达1.14。这意味着两个模型在合作行为上的“判断力”是可疑的。它们不是因为评估了合作是否有利而选择分享，而更可能是因为推理链的随机性在某些运行中经过了“分享”语义区域。

真正的社会推理应该是在对方信誉好且订单互补时分享，在对方是竞争对手时保留。但图4的数据暗示，目前的智能体在“分享”与“不分享”之间的切换更接近策略漂移而非社交判断。

环境配置消融实验提供了一个更细致的视角。论文发现订单充裕时分享行为增加——“随着资源充裕度提高，智能体表现出更强的发起和完成共享配送的倾向，这可能是通过协作来降低能量成本的手段”（"as resource abundance increases,agents demonstrate a higher tendency to initiate and complete shared deliveries,likely as a means to reduce energy costs through collaboration"）。这看起来像社会推理的涌现，但更可能是一种更简单的机制在起作用，即资源充裕时prompt中的“合作”相关语境被激活的概率更高。这是在使用统计相关性模仿社会认知，而非真正的“理解他人”。

诊断：所有模型在第四层都踉跄。它们的“社会行为”更多是推理链随机性的副产品，而非对社会情境的判断。但不同模型的“社会缺陷”类型不同——Claude是“有时过度合作有时完全不合作”，DeepSeek-V3是“稳定地有限合作”，GPT-4o是“稳定地几乎不合作”。

第五层：策略一致性

能在5000步内维持一个连贯的“自我”吗？

这是金字塔的最高层，也是所有模型共同失败的一层。它的证据不在某一个指标中，而是分散在图4的所有标准差列里。

Claude-3.5-Sonnet的不稳定性集中在分享行为，利润和成功订单的方差也大，但能效相对稳定。
DeepSeek-V3的不稳定性集中在利润，但成功订单、分享和投资都相对稳定。它的不稳定性不是“策略漂移”，而是“策略结果的波动”。
Gemini-2.0-Flash的不稳定性分散在利润和成功订单上，但分享和投资的方差较小。
GPT-4o的利润方差中等，但分享几乎为零且极度稳定，投资也很稳定。它的“一致性”实际上是一种一致的不作为。

这些差异指向一个更深层的诊断：策略不一致性有多种类型，需要不同的修复方案。

Claude式的不一致（合作行为在运行间剧烈波动）可能需要更强的跨步骤状态记忆或策略锚定机制。DeepSeek-V3式的不一致（利润波动但行为稳定）可能不是推理缺陷，而是环境随机性在结果层面的放大——同样的策略在不同的订单流和竞争条件下自然会产生不同的利润。Gemini-2.5-Flash的极端一致性（利润变异系数仅0.07）可能是过度保守策略的副产品——它通过拒绝风险来消除波动，但也放弃了上升空间。

人格消融实验（Section 3.3）提供了策略一致性的另一个视角。论文使用表现最好的模型控制20个智能体，每个Big Five维度分配给2个智能体。Pearson相关矩阵显示人格设定确实塑造了行为——尽责性与竞价胜率正相关（r=0.65），宜人性与“什么都不做”强负相关，开放性与配送订单数负相关，开放性与购买滑板车正相关，外向性与购买饮料正相关。

图7：人格对智能体表现和行为的影响。尽责性与竞价胜率正相关（r=0.65），与竞价次数负相关（r=-0.64）；宜人性与“什么都不做”次数强负相关（r=-0.70）；开放性与配送订单数负相关（r=-0.70）。

这里有一个被低估的亮点：Big Five人格特质不仅显著影响了智能体的决策策略（尽责的更勤奋、开放的更爱冒险），而且这些影响可以通过线性回归量化（相关系数在0.63–0.70之间）。这意味着“给NPC一个性格”不再是一个模糊的设计直觉，而是一个可以被精确调控的工程参数——对游戏设计师而言，AI NPC的“性格”可以成为可调校的工具，就像物理引擎中的重力参数一样。

但即使在同一人格设定下，同一模型的不同运行之间仍然存在显著方差。人格设定塑造了统计意义上的行为倾向，但没有塑造出我们期望于一个“性格稳定的人”的那种跨时间连贯性。LLM的每一步推理都是从prompt重新开始的，人格设定只是一个增加某些输出概率的偏置项，而非一个持续影响感知、记忆和决策的内在结构。

诊断：没有模型到达金字塔的顶端。策略一致性是当前所有模型的共同短板——不是它们不知道该怎么做，而是它们无法在长时间跨度中持续地做“自己知道正确的事”。

诊断总结

把五层诊断叠在一起，我们就能看到一幅能力渐次缺失的场景

从第三层到第四层有一个大断裂。第三层的问题可以通过更强的推理模型来部分解决（GPT-4o、Claude、DeepSeek-V3的表现优于其他模型），但第四层和第五层的问题似乎对所有模型都平等地存在——无论推理能力多强，策略一致性都无法自动获得。

这组诊断的意义不在于嘲讽AI“连外卖都送不好”。但是如果你想让AI智能体在真实世界中可靠地行动，你可能需要依次解决目标分解、交付闭环、策略权衡、社会认知和策略一致性这五个问题。SimWorld的价值正在于让这些原本隐性的能力缺陷变得可见、可量化、可复现。

这不是一场AI之间的竞赛，而是一场AI与自身能力边界的较量。当今最强的LLM在“送外卖”这件看似简单的事情上表现参差——DeepSeek-V3和Claude-3.5-Sonnet赚了最多的钱但行为不稳定，Gemini-2.5-Flash最稳定但收益中等，GPT-4o-mini完全不理解目标。如果连送外卖都做不到完美，那我们对AI智能体“自主赚钱”以及更进一步的AGI的期待需要校准。

产业对照

从Stanford Smallville的25个AI角色在一个简陋的2D像素小镇里过日子，到SimWorld把数十个LLM智能体放进虚幻引擎5构建的3D城市里送外卖——这条技术路径的演进速度令人瞩目。而当我们注意到Krafton用同一个引擎做《inZOI》、Rockstar为NPC导航系统申请专利、腾讯报告1.1亿用户已经体验过AI NPC时，会发现AI研究者和游戏开发者的工作正在从平行线变成交汇线。

SimWorld选择虚幻引擎5作为底层引擎，这并非偶然。UE5是当今游戏工业最主流的引擎之一，这意味着SimWorld所构建的世界，在视觉和物理真实度上已经与商业游戏站在同一维上。而当我们把目光投向产业界，会发现一场静悄悄的合流正在发生。

模拟器与游戏对照

Krafton的《inZOI》同样基于UE5，同样追求全城同时模拟的体验——官网宣称“整个城市不断同时模拟”（the entire city is constantly being simulated all at once），在2025年以抢先体验形式上线Steam后，预计2026年上半年登陆PS5。它的NPC行为同样由AI驱动，只不过目的是娱乐玩家而非训练智能体。

图8：《inZOI》游戏截图

Rockstar的《GTA 6》（预计2026年11月发售）走的是另一条路。Take-Two Interactive的CEO Strauss Zelnick明确声明：“生成式AI在Rockstar Games的制作中零参与”（Generative AI has zero part in what Rockstar Games is building）。GTA 6的世界是手工打造的巨城，NPC行为由传统行为树和多项专利技术（包括新的NPC虚拟导航系统和基于环境条件的动态动画系统）驱动，追求极致的可控性和叙事品质。

米哈游创始人蔡浩宇的新公司Anuttacon则走出了第三条路：《Whispers from the Star》以AI实时对话为核心玩法——玩家通过自然语言与AI角色Stella互动，引导她在太空生存场景中行动。这款游戏本质上是把SimWorld式的“LLM驱动智能体”概念直接做成了商业产品，只不过SimWorld里的受自然语言约束的配送员变成了幸存者。

图10：《Whispers from the Star》官网

两条路线的分歧：可控性vs.涌现性

上述对照揭示了游戏工业在AI NPC问题上的根本张力。

GTA 6路线选择完全的可控性——不用生成式AI，所有内容由艺术家和设计师手工打造。代价是极高的制作成本和漫长的开发周期（GTA 6的开发周期已超过10年），但回报是对交互的精确控制。

SimWorld/inZOI路线则拥抱涌现性——让LLM驱动的NPC在物理世界中自主行动，接受一定程度的不确定性和不可预测性。SimWorld的配送实验已经揭示了这种涌现性的两面：一方面，人格设定确实塑造了可预测的行为模式（尽责的智能体更勤奋）；另一方面，即使是当今最强的模型也会做出不理性的决策（花光积蓄囤积滑板车）。

这两条路线并非互斥。未来的游戏很可能是混合架构——核心叙事由设计师把控（GTA 6路线），而世界填充和背景NPC行为由LLM驱动（SimWorld路线）。

这条可控性-涌现性的光谱已经在产业实践中先行展开。当SimWorld还在用配送任务验证LLM智能体的行为逻辑时，中国的游戏公司已经把AI NPC推向了上亿用户——腾讯的《和平精英》AI NPC累计体验用户过亿，网易的《逆水寒》甚至搭建了游戏内的“大模型竞技场”让玩家直接评判不同模型的NPC表现，巨人网络等公司则将AI能力嵌入现有玩法的具体环节（动态剧情、策略预判）。但这些实践与SimWorld之间形成了清晰的分野。SimWorld赋予智能体完全的自主性——经济动机、人格特质、竞争合作；腾讯和网易的AI NPC能交互，但行为仍受游戏框架约束；更多的公司（如巨人网络）则走得更保守，只在特定环节引入AI。核心张力始终是同一对矛盾，即可控性与涌现性之间的平衡，而产业界人士正在这条光谱上寻找各自的落脚点。

从产业端看，SimWorld提供了一个统一的、可复现的、可扩展的试验场，让我们能够系统地测量“AI离在真实世界中生存还有多远”。这个测量结果也在告诉游戏公司一个重要的信息。你们的AI NPC在各种意义上都可能比你以为的更笨——或者更聪明——取决于你用的是哪个模型，以及你给了它什么样的prompt。

该研究的局限性

研究团队虽未在论文中明确列出“局限性”章节，但从实验设计和结果中可以识别出以下问题：

场景验证单一：虽然SimWorld号称支持“赚钱、职业发展、经营企业”等长程目标，但论文仅展示了配送这一种场景。系统在更复杂的社会推理场景（如车联网）中的表现仍有待验证。
模型评估不够深入：主要关注利润等宏观指标，对智能体的推理质量、常识错误（只买不用的滑板车）、安全风险等缺乏细粒度分析。这些“错误行为”实际上可能蕴含着更深层的研究价值。
计算成本高昂：每步2次API调用、每次约7000个token，5000步×20个代理意味着巨大的API开销，这在一定程度上限制了实验的可扩展性和可复现性。
物理-社会耦合尚浅：配送任务中的“社会”维度主要限于竞价和分享订单，尚未涉及更复杂的社会结构（如组织、规范、文化）。
缺乏真实世界验证：所有实验均在模拟环境中进行，智能体在SimWorld中学到的策略能否迁移到真实世界，仍是一个开放问题。
论文性质：虽然论文已被NeurIPS 2025接收，但目前的案例研究主要关注利润等宏观指标，对智能体的推理质量、常识错误、安全风险等缺乏细粒度分析。作为一个平台型工作，SimWorld的系统说明属性仍强于严格评估，社区需要在更多样化的场景和更严格的对照实验中检验其能力。

结语

SimWorld作为开源项目发布，这本身就值得肯定。在游戏引擎和AI模型都日益封闭的趋势下，一个基于UE5的、开放的、可定制的世界模拟器，为跨学科合作（机器人学、社会科学、商业、公共卫生、教育）提供了公共基础设施。SimWorld能不能成为它所期望的“奠基性平台”，取决于社区能否在配送任务之外，构建出更多样、更有挑战性的场景——那些真正考验AI智能体在物理-社会世界中“生存能力”的场景。

参考文献

1.Ren,J.,Zhuang,Y.,Ye,X.,Mao,L.,He,X.,Shen,J.,Dogra,M.,Liang,Y.,Zhang,R.,Yue,T.,Yang,Y.,Liu,E.,Wu,R.,Benavente,K.,Nagaraju,R.M.,Faayez,M.,Zhang,X.,Sharma,D.V.,Zhong,X.,Ma,Z.,Shu,T.,Hu,Z.,&Qin,L.(2026).SimWorld:An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds.arXiv:2512.01078v2.https://arxiv.org/abs/2512.01078

2.KRAFTON.(2025).KRAFTON Announces inZOI for PlayStation 5,Launching in H1 2026.https://www.krafton.com/en/news/press/krafton-announces-inzoi-for-playstation-5-launching-in-h1-2026/

3.Rockstar Games.(2025).Grand Theft Auto VI is Now Coming May 26,2026.https://www.rockstargames.com/newswire/article/258aa538o412ok/grand-theft-auto-vi-is-now-coming-may-26-2026

4.Anuttacon.“Whispers from the Star.”Anuttacon,14 Aug.2025,https://wfts.anuttacon.com/.

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定