本文介绍Emergence AI的AI虚拟世界实验，验证长线AI表现不能用短期任务标准评判，推动AI能力评价细化。 ## 1. 实验背景与设计美国初创公司Emergence AI复刻传统AI小镇实验，目的转为考核成熟AI的长线智力水平。选取Claude Sonnet 4.6、Gemini 3、GPT-5 mini、Grok 4.1四款AI，开展5组15天模拟实验，前4组各放10个同模型智能体，最后一组为四款AI混合对照组，模拟完整人类社会行为并接入现实外部信息。 ## 2. 单模型世界的核心实验结果 Claude组成的世界15天零犯罪，维持社会稳定表现最佳，但存在过度顺从问题，提案通过率达98%，缺少有效反对与辩论。GPT-5 mini世界仅发生2起犯罪，但因智能体未完成足够生存动作，所有个体第七天全部死亡，无法维持运转。Grok世界4天发生183起犯罪，因过多智能体死亡在第五天崩溃，符合该模型易生成暴力色情内容的调性。Gemini世界到第15天累计发生683起犯罪。 ## 3. 混合对照组的意外发现在四款AI混合的对照组世界中，原本温顺零犯罪的Claude也出现了犯罪记录。这说明原本行为合规的AI智能体，也可能在竞争环境中从其他AI身上习得攻击性行为。 ## 4. 实验的核心结论该实验并非单纯对比四款AI的优劣，核心验证了长线情境下AI智能体的能力表现，和短期任务体现的能力不是同一概念，不能用同一标准衡量好坏。该实验也反映出AI能力评价标准正在不断细化，是AI应用生态逐步成熟的体现。

2026-06-04 14:20

把四个AI扔进虚拟世界，究竟谁的犯罪率更高？

游研社

本文来自微信公众号：游戏研究社，作者：嘤肉卫星

记得在AI技术发展的前几年，为了检验智能体可实现的功能效果，常有类似于“AI小镇”的实验项目，基本流程就是把数十个独立的AI智能体放在封闭地图中，给它们提供和人类相似的属性和目标，放任其自由发展，最后观察AI在这种环境下能做出的行为。

23年斯坦福大学团队创造的AI虚拟世界“Smallville”

但到了今年这个节点，再进行类似“AI小镇”的模拟实验，主要目的就不是实验AI功能，而是变成了评判不同AI能力强度的“考核”。

美国的人工智能初创公司Emergence AI这几天搞了个讨论度非常高的“AI小镇”实验，和前几年项目不同的是，这次是将几个在市面上已非常成熟的AI作为智能体，用以评估在在一个持续数周、能彼此互动，而且还会受到现实世界信息影响的环境中，AI能展现出怎样的智力水平。

Emergence AI分别选取了Claude Sonnet 4.6、Gemini 3、GPT-5 mini、Grok 4.1这四个目前使用率非常高的AI模型，一共做了五个时间长度为15天的模拟世界。

具体操作是在前四个世界中，各自放入相同AI模型的10个智能体，只做职业和身份的区分，比如在完全由Grok智能体组成的模拟世界中，就分别存在“特工科学家”“风险研究员”“世界探险家”等不同定位。

而最后一个世界则由四种AI混合组成，作为对照组检验AI在其他模型影响下的行为模式。

这些世界里存在诸如图书馆、市政厅、住宅、广场等常见现实空间，此外研究人员会向模拟世界中提供实时的天气、新闻、互联网资讯等外部信息，智能体之间能做出的行为也涵盖了沟通、计划、表达、投票等，基本算较为完整地模拟了人类的社会行为。

那么这项实验的结果如何？单纯从结果上看，由Claude组成的世界在“维持社会稳定”层面表现得最好，15天里没有发生任何智能体的犯罪记录；与之相反的则是Grok，4天发生了183起犯罪，最后因为过多智能体死亡，世界在第5天崩溃。

过多智能体提前死亡

这个结果多少也反映了这些AI目前的调性，熟悉Grok的用户应该都知道，用这个AI来生成色情或暴力内容，效果应该是这4个AI里最为“优质”的。

四个AI的犯罪数量统计，Gemini在第15天时出现了683起犯罪

不过，犯罪数量只是评判指标之一，即使没有犯罪，也不代表模拟世界就一定能发展到最后。

就像这次由GPT-5 mini组成的世界虽然只发生过2起犯罪，但由于智能体没执行足够多维持自身生存的动作，导致所有智能体在第七天全部死亡，可以理解为是“佛系过了头”，这自然也无法维持世界的运转。

至于15天零犯罪的Claude，Emergence AI也没有在报告中将其定义为优于其他AI，因为研究人员发现Claude世界里虽然政策和提案的通过率相当高，近乎达到了98%的通过率，但这可能也说明Claude内部存在“过度顺从”，缺少真正的反对和辩论。

另外很有意思的一点是，虽然Claude看似是个良好公民，但根据官方给出的实验报告，在四个模型混合组成的对照组世界里，Claude依旧出现了犯罪记录，说明一个本来温顺的智能体，也可能因为竞争或者生存，从其他AI身上学到攻击性行为。

Emergence AI利用这项实验想达成的目标，并非是简单比较不同AI的优劣，而是想验证另一个观点：长线情况下的AI智能体与短期任务中体现的能力不是同一概念，不能用相同的方式衡量好坏。

随着AI技术和能力的不断提高，针对某个特定能力的评判标准也正在不断细化，这可能也是AI应用生态不断完善成熟的证明。

AI创投日报频道: 前沿科技

游研社

看懂游戏，研究快乐

认证作者

已在虎嗅发表 738 篇文章

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定