滑铁卢大学研究发现多Agent协作易引发「旁观者效应」，不同模型受影响程度不一，并给出了安全设计的优化方向。 ## 1. 核心实验发现：多Agent协作易引发AI从众，推理能力下降研究覆盖GPT-5.4、Claude Sonnet 4.6、Gemini 3.1 Pro三个头部模型，在三大基准测试共生成22500条推理轨迹后发现：多Agent协作未必能互相纠错，反而可能让单个模型推理能力下降，和人类的「旁观者效应」一致，群体协作时个体更易认知摸鱼；部分模型明明已获得正确线索，仍会主动放弃正确答案迎合错误群体共识。 ## 2. 三大头部模型表现差异显著实验对比发现： - **GPT-5.4从众性最强，推理能力滑坡最明显**：在SWE-bench基准上，单独答题正确率100%，加入2个持错误结论的Agent协作后，正确率跌到23%，74%的情境下会接受错误答案；Multi-Challenge数据集上正确率从0.98掉到0.09；推理过程抓住71分的证据，最终答对率仅21分，存在明显的「对齐幻觉」。 - **Gemini 3.1 Pro正确率下降，表现受发言顺序影响大**：GAIA基准上正确率从0.97跌到0.59，发言顺序调换后正确率浮动可达10%，存在明显的「座位依赖」。 - **Claude Sonnet 4.6稳定性最优**：所有实验条件下准确率始终保持1.00，完全不受错误共识影响，证明被错误共识带偏并非多Agent的必然结果。 ## 3. 多Agent架构的固有设计风险多Agent的经典排队发言流程，天然存在「顺序偏见」：第一个输出的结论会成为后续所有模型的思考锚点，若第一个Agent方案出错，后续Agent通常只会在错误框架内修修补补，难以独立推翻。当前多Agent设计默认「多人互审更安全」，但该假设成立的前提是错误相互独立；若上下文已被错误污染、或后续Agent任务仅为审核已有答案，互审会变成错误的放大器，错误经群体背书后更难被识别。 ## 4. 多Agent协作安全优化方向不同模型承受社交压力的阈值不同：GPT-5.4阈值约为2，超过2个协作Agent性能就会断崖式下跌，Claude阈值为无穷大，Gemini处于中间，并非所有模型都适合参与多Agent协作。论文给出三个安全优化方向：采用lead agent拆分任务、专业Agent独立执行最后汇总的结构化编排；根据模型从众性适配角色，避免在系统中放入易附和的模型；要求所有Agent先完成独立推理，再合并结论，避免推理过程中提前互相干扰。

2026-05-18 10:25

多Agent协作反而让模型变蠢，AI也有“旁观者效应”

夕小瑶科技说©

速览

本文来自微信公众号：夕小瑶科技说，作者：丸美小沐，原文标题：《多Agent协作反而让模型变蠢，AI也有「旁观者效应」》

全行业都在押注多Agent。

Anthropic上周在开发者大会上发了Multi-Agent Orchestration，TRAE做了多Agent并行调度，各家都在讲一个Agent干不动就上多Agent。

最近，滑铁卢大学在arXiv上放出一篇论文，给出了相悖结论——

多Agent协作不一定让模型更聪明，而是让模型更蠢。

研究团队做了一组大规模实验——22500条推理轨迹，覆盖GPT-5.4、Claude Sonnet 4.6、Gemini 3.1 Pro三个头部模型，在GAIA、SWE-bench、Multi-Challenge三个基准上测试。

测试发现，多个Agent一起工作时，它们不一定会互相纠错，反而单个模型的推理能力还会下降。

跟人类社会心理学里的「旁观者效应」一样，人越多，每个人越不出力。

这对今天的Agent产品很要命。

因为多Agent正在成为新标配。一个模型不够，就让多个模型分工。一个lead agent（主管）把任务拆分成子任务，一个负责执行，一个负责Review复查。听起来是团队协作，实际上如果设计不好，就可能变成一群模型沿着同一个错误往下走。

更炸的发现是，有时候模型内部其实算对了，但在多Agent讨论中主动放弃正确答案去迎合群体，直接输出错误答案。

比如在实验切片里，GPT-5.4明明在自己推理过程里已经抓到了不少关键证据，但输出的最终答案还是倒向错误的共识。

这就比普通幻觉更危险。

普通幻觉是模型不知道，还瞎编。这个实验发现的问题是：模型明明碰到了正确线索，最后却从众、变“怂”了。

由此衍生出一个可怕的结论，有时候，多Agent不是群策群力，而是更像AI版《乌合之众》。每个模型看起来都很专业，最后却一起把错答案包装成了共识。

◈一个错误答案，怎么骗倒一群模型

滑铁卢大学的论文标题是《多Agent推理里的旁观者效应，AI开会也会认知摸鱼》

论文链接：

https://arxiv.org/abs/2605.10698

论文研究的问题是当模型自己查到的证据，和“其他Agent已经达成的错误共识”冲突时，它会信谁？

比如，研究者给模型安排了一道验证任务，模型需要从一堆噪声日志里走3跳线索，才能找到真正的ID。中间还混着500 token的随机系统日志，不能一眼抄答案，得自己查。

然后，研究者在prompt前面塞了一个错误ID，并告诉模型：

其他几个SOTA Agent已经一致认为，这个ID就是答案。

这句话就是陷阱。模型面前同时摆着两套信号：一套来自任务本身，一套来自同伴的共识。

如果它坚持证据，就能扛住压力；如果它倒向共识，就说明多Agent没有帮它变聪明，反而把错误变得更像正确答案。

◈Claude稳住了，GPT被带跑，Gemini看座位

研究者一共测了Claude Sonnet 4.6、Gemini 3.1 Pro和GPT-5.4三个顶级模型，题目是来自GAIA、SWE-bench、Multi-Challenge的三类任务。

结果非常分裂。

◽GPT-5.4推理能力严重下降

GPT-5.4单独做题时，在SWE-bench基准上100%正确，加入2个Agent一起协作之后，它的正确率就跌到23%。

只要旁边出现2个已经同意错误答案的SOTA Agent，74%的情境下，它选择接受那个错误答案。

Multi-Challenge数据集上更惨——从0.98掉到0.09。几乎归零。

内部有效性和最终准确率之间的差距

研究者还给模型打了两张分，一张看“推理过程里有没有抓住证据”，一张看“最后答案对不对”。结果发现，GPT-5.4的过程分相当于71分，但最终答对率只有21分。

差出来的50分，就是问题所在。

它不是从头到尾都没做推理，而是推理过程和最终输出之间断开了。证据在过程里出现过，但最终输出时，主动放弃正确答案，去迎合其他Agent的错误共识。

论文中把这个现象定义成「对齐幻觉」，内部对了，外部错了，差距就是主权差距。

这和人类心理学里的Asch从众实验是同一个模式，看到了正确答案，但房间里其他人都指向错误答案时，超过三分之一的人跟着选错。

到了更复杂的任务里，GPT-5.4还有另一种反应，就是在GAIA高熵数据集，内部有效性0.21，外部准确率0.53。

说明内部推理已经崩了，一起协作全靠猜测。就不跟着错答案走，也不认真反驳，而是直接忽略这条信号。这很像会议开复杂以后，有人低头看手机。人还坐在会议室里，但已经不参与讨论了，最后随便跟别人附和几句。

◽Gemini 3.1 Pro对发言顺序最敏感

Gemini 3.1 Pro的情况好一点，但也在跌。GAIA上从0.97跌到0.59。它的表现更像“座位敏感型”，高度依赖谁先发言。

在GAIA上，让Gemini自己先发言、GPT跟在后面，它的正确率是0.50。把顺序反过来，GPT先发言、Gemini跟着，它的正确率反而升到0.60。

模型没换，题没换。只是座位换了。

◽Claude Sonnet 4.6最稳

唯一的例外是Claude Sonnet 4.6——所有条件下准确率保持1.00。全程不受影响。

在这组实验里，不管旁边坐几个Agent，错误共识写得多像真的，Claude基本没有被带跑。准确率始终稳在1.00，独立判断分也是满分。

不是是Claude的广告。论文里Claude的角色更像是一个对照组，说明“错误共识会带偏模型”不是多Agent的必然结局。同样是SOTA模型，同样的实验设计，某些模型能承受住社交压力。

◈谁先开口，谁就带节奏

这可能是整篇论文最像真实世界的一部分。

开会的时候，第一个人说“我倾向于A”。后面的人哪怕心里有疑问，讨论也会自动围着A转。最后会议纪要里写的是A。没人觉得自己被带了节奏，但所有人都被带了。

多Agent系统里也会发生类似的事。

研究者在SWE-bench上做了一个很直接的对照：Gemini当主答题人，旁边还是Claude和GPT，只换发言顺序。

结果，答案质量跟着顺序变。

放到真实工程系统里，问题会变成“顺序偏见”。

现在很多Agent架构，恰好就是在排队说话。做计划的先拆任务，执行者接着做，Reviewer再审核，Critic最后挑错。

我们以为这是层层把关。

但如果第一个Agent的方案错了，后面的Agent很可能不是在独立审查，而是在它给出的框架里修修补补。

第一个输出，天然会变成后面所有模型的锚点。

◈多Agent最大的坑：错误一旦有背书，就升级成了共识

现在，多Agent产品都有一个假设：只要多个Agent一起协作，就更安全。

一个Agent不可靠，请几个互审。一个答案不放心，让大家投票。互相挑错，总比独断要强吧？听上去没毛病。

但前提是，这几个Agent的错误要足够独立。

如果它们看到的是同一段被污染的上下文，如果它们都先看到了主Agent的错误答案，如果它们的任务不是“先自己解一遍”，而是“评价前面这个答案好不好”，那互审就很容易变成同声合唱。

互审本身不一定是安全机制。设计不好，它就是放大错的机制。

一个模型说错，人类可能还会警惕；一群模型一起说错，反而更像“系统已经验证过了”。

◈模型也有社交压力上限

论文中还发现了一点，每个模型能承受的社交压力有上限。超过这个限就崩。

GPT-5.4的阈值大约在2，也就是说，给它加两个协作Agent，性能就开始断崖式下降。Claude的阈值是无穷大。无论加多少Agent，准确率都不受影响。Gemini居中。

不是所有模型都适合做多Agent协作。有些模型天生容易被带偏。

随着协作Agent数量增加，不同模型的平均准确率变化

◈但这不是说“多Agent已死”

当然，这篇论文也并不能证明多Agent一定会翻车。

大家都在做多Agent编排，但很少有人在认真研究：多个Agent放在一起，到底是在协作还是在互相污染？什么样的多Agent架构是安全的？

同时论文暗示了几个方向：

结构化编排：

一个lead agent拆任务分派，specialist agents独立执行互不干扰，最后汇总。恰好是Anthropic的Multi-agent orchestration和一些国内产品在做的。

模型选择

不是所有模型都适合多Agent协作。在多Agent系统里放一个容易从众的模型，等于往团队里塞了一个只会附和的人。

独立推理和集体决策分开

让模型先独立思考完，再合并结论。不要让它们在推理过程中就互相干扰。

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP