滑铁卢大学研究发现多Agent协作易引发「旁观者效应」,不同模型受影响程度不一,并给出了安全设计的优化方向。 ## 1. 核心实验发现:多Agent协作易引发AI从众,推理能力下降 研究覆盖GPT-5.4、Claude Sonnet 4.6、Gemini 3.1 Pro三个头部模型,在三大基准测试共生成22500条推理轨迹后发现:多Agent协作未必能互相纠错,反而可能让单个模型推理能力下降,和人类的「旁观者效应」一致,群体协作时个体更易认知摸鱼;部分模型明明已获得正确线索,仍会主动放弃正确答案迎合错误群体共识。 ## 2. 三大头部模型表现差异显著 实验对比发现: - **GPT-5.4从众性最强,推理能力滑坡最明显**:在SWE-bench基准上,单独答题正确率100%,加入2个持错误结论的Agent协作后,正确率跌到23%,74%的情境下会接受错误答案;Multi-Challenge数据集上正确率从0.98掉到0.09;推理过程抓住71分的证据,最终答对率仅21分,存在明显的「对齐幻觉」。 - **Gemini 3.1 Pro正确率下降,表现受发言顺序影响大**:GAIA基准上正确率从0.97跌到0.59,发言顺序调换后正确率浮动可达10%,存在明显的「座位依赖」。 - **Claude Sonnet 4.6稳定性最优**:所有实验条件下准确率始终保持1.00,完全不受错误共识影响,证明被错误共识带偏并非多Agent的必然结果。 ## 3. 多Agent架构的固有设计风险 多Agent的经典排队发言流程,天然存在「顺序偏见」:第一个输出的结论会成为后续所有模型的思考锚点,若第一个Agent方案出错,后续Agent通常只会在错误框架内修修补补,难以独立推翻。 当前多Agent设计默认「多人互审更安全」,但该假设成立的前提是错误相互独立;若上下文已被错误污染、或后续Agent任务仅为审核已有答案,互审会变成错误的放大器,错误经群体背书后更难被识别。 ## 4. 多Agent协作安全优化方向 不同模型承受社交压力的阈值不同:GPT-5.4阈值约为2,超过2个协作Agent性能就会断崖式下跌,Claude阈值为无穷大,Gemini处于中间,并非所有模型都适合参与多Agent协作。 论文给出三个安全优化方向:采用lead agent拆分任务、专业Agent独立执行最后汇总的结构化编排;根据模型从众性适配角色,避免在系统中放入易附和的模型;要求所有Agent先完成独立推理,再合并结论,避免推理过程中提前互相干扰。
多Agent协作反而让模型变蠢,AI也有“旁观者效应”
2026-05-18 10:25

多Agent协作反而让模型变蠢,AI也有“旁观者效应”

本文来自微信公众号: 夕小瑶科技说 ,作者:丸美小沐,原文标题:《多Agent协作反而让模型变蠢,AI也有「旁观者效应」》


全行业都在押注多Agent。


Anthropic上周在开发者大会上发了Multi-Agent Orchestration,TRAE做了多Agent并行调度,各家都在讲一个Agent干不动就上多Agent。


最近,滑铁卢大学在arXiv上放出一篇论文,给出了相悖结论——


多Agent协作不一定让模型更聪明,而是让模型更蠢。


研究团队做了一组大规模实验——22500条推理轨迹,覆盖GPT-5.4、Claude Sonnet 4.6、Gemini 3.1 Pro三个头部模型,在GAIA、SWE-bench、Multi-Challenge三个基准上测试。


测试发现,多个Agent一起工作时,它们不一定会互相纠错,反而单个模型的推理能力还会下降。


跟人类社会心理学里的「旁观者效应」一样,人越多,每个人越不出力。


这对今天的Agent产品很要命。


因为多Agent正在成为新标配。一个模型不够,就让多个模型分工。一个lead agent(主管)把任务拆分成子任务,一个负责执行,一个负责Review复查。听起来是团队协作,实际上如果设计不好,就可能变成一群模型沿着同一个错误往下走。


更炸的发现是,有时候模型内部其实算对了,但在多Agent讨论中主动放弃正确答案去迎合群体,直接输出错误答案。


比如在实验切片里,GPT-5.4明明在自己推理过程里已经抓到了不少关键证据,但输出的最终答案还是倒向错误的共识。


这就比普通幻觉更危险。


普通幻觉是模型不知道,还瞎编。这个实验发现的问题是:模型明明碰到了正确线索,最后却从众、变“怂”了。


由此衍生出一个可怕的结论,有时候,多Agent不是群策群力,而是更像AI版《乌合之众》。每个模型看起来都很专业,最后却一起把错答案包装成了共识。


◈一个错误答案,怎么骗倒一群模型


滑铁卢大学的论文标题是《多Agent推理里的旁观者效应,AI开会也会认知摸鱼》



论文链接:


https://arxiv.org/abs/2605.10698


论文研究的问题是当模型自己查到的证据,和“其他Agent已经达成的错误共识”冲突时,它会信谁?


比如,研究者给模型安排了一道验证任务,模型需要从一堆噪声日志里走3跳线索,才能找到真正的ID。中间还混着500 token的随机系统日志,不能一眼抄答案,得自己查。



然后,研究者在prompt前面塞了一个错误ID,并告诉模型:


其他几个SOTA Agent已经一致认为,这个ID就是答案。


这句话就是陷阱。模型面前同时摆着两套信号:一套来自任务本身,一套来自同伴的共识。


如果它坚持证据,就能扛住压力;如果它倒向共识,就说明多Agent没有帮它变聪明,反而把错误变得更像正确答案。


◈Claude稳住了,GPT被带跑,Gemini看座位


研究者一共测了Claude Sonnet 4.6、Gemini 3.1 Pro和GPT-5.4三个顶级模型,题目是来自GAIA、SWE-bench、Multi-Challenge的三类任务。


结果非常分裂。


◽GPT-5.4推理能力严重下降


GPT-5.4单独做题时,在SWE-bench基准上100%正确,加入2个Agent一起协作之后,它的正确率就跌到23%。


只要旁边出现2个已经同意错误答案的SOTA Agent,74%的情境下,它选择接受那个错误答案。


Multi-Challenge数据集上更惨——从0.98掉到0.09。几乎归零。


内部有效性和最终准确率之间的差距


研究者还给模型打了两张分,一张看“推理过程里有没有抓住证据”,一张看“最后答案对不对”。结果发现,GPT-5.4的过程分相当于71分,但最终答对率只有21分。


差出来的50分,就是问题所在。


它不是从头到尾都没做推理,而是推理过程和最终输出之间断开了。证据在过程里出现过,但最终输出时,主动放弃正确答案,去迎合其他Agent的错误共识。


论文中把这个现象定义成「对齐幻觉」,内部对了,外部错了,差距就是主权差距。


这和人类心理学里的Asch从众实验是同一个模式,看到了正确答案,但房间里其他人都指向错误答案时,超过三分之一的人跟着选错。


到了更复杂的任务里,GPT-5.4还有另一种反应,就是在GAIA高熵数据集,内部有效性0.21,外部准确率0.53。


说明内部推理已经崩了,一起协作全靠猜测。就不跟着错答案走,也不认真反驳,而是直接忽略这条信号。这很像会议开复杂以后,有人低头看手机。人还坐在会议室里,但已经不参与讨论了,最后随便跟别人附和几句。


◽Gemini 3.1 Pro对发言顺序最敏感


Gemini 3.1 Pro的情况好一点,但也在跌。GAIA上从0.97跌到0.59。它的表现更像“座位敏感型”,高度依赖谁先发言。


在GAIA上,让Gemini自己先发言、GPT跟在后面,它的正确率是0.50。把顺序反过来,GPT先发言、Gemini跟着,它的正确率反而升到0.60。


模型没换,题没换。只是座位换了。


◽Claude Sonnet 4.6最稳


唯一的例外是Claude Sonnet 4.6——所有条件下准确率保持1.00。全程不受影响。


在这组实验里,不管旁边坐几个Agent,错误共识写得多像真的,Claude基本没有被带跑。准确率始终稳在1.00,独立判断分也是满分。


不是是Claude的广告。论文里Claude的角色更像是一个对照组,说明“错误共识会带偏模型”不是多Agent的必然结局。同样是SOTA模型,同样的实验设计,某些模型能承受住社交压力。


◈谁先开口,谁就带节奏


这可能是整篇论文最像真实世界的一部分。


开会的时候,第一个人说“我倾向于A”。后面的人哪怕心里有疑问,讨论也会自动围着A转。最后会议纪要里写的是A。没人觉得自己被带了节奏,但所有人都被带了。


多Agent系统里也会发生类似的事。


研究者在SWE-bench上做了一个很直接的对照:Gemini当主答题人,旁边还是Claude和GPT,只换发言顺序。



结果,答案质量跟着顺序变。


放到真实工程系统里,问题会变成“顺序偏见”。


现在很多Agent架构,恰好就是在排队说话。做计划的先拆任务,执行者接着做,Reviewer再审核,Critic最后挑错。


我们以为这是层层把关。


但如果第一个Agent的方案错了,后面的Agent很可能不是在独立审查,而是在它给出的框架里修修补补。


第一个输出,天然会变成后面所有模型的锚点。


◈多Agent最大的坑:错误一旦有背书,就升级成了共识


现在,多Agent产品都有一个假设:只要多个Agent一起协作,就更安全。


一个Agent不可靠,请几个互审。一个答案不放心,让大家投票。互相挑错,总比独断要强吧?听上去没毛病。


但前提是,这几个Agent的错误要足够独立。


如果它们看到的是同一段被污染的上下文,如果它们都先看到了主Agent的错误答案,如果它们的任务不是“先自己解一遍”,而是“评价前面这个答案好不好”,那互审就很容易变成同声合唱。


互审本身不一定是安全机制。设计不好,它就是放大错的机制。


一个模型说错,人类可能还会警惕;一群模型一起说错,反而更像“系统已经验证过了”。


◈模型也有社交压力上限


论文中还发现了一点,每个模型能承受的社交压力有上限。超过这个限就崩。


GPT-5.4的阈值大约在2,也就是说,给它加两个协作Agent,性能就开始断崖式下降。Claude的阈值是无穷大。无论加多少Agent,准确率都不受影响。Gemini居中。


不是所有模型都适合做多Agent协作。有些模型天生容易被带偏。


随着协作Agent数量增加,不同模型的平均准确率变化


◈但这不是说“多Agent已死”


当然,这篇论文也并不能证明多Agent一定会翻车。


大家都在做多Agent编排,但很少有人在认真研究:多个Agent放在一起,到底是在协作还是在互相污染?什么样的多Agent架构是安全的?


同时论文暗示了几个方向:


  • 结构化编排:


一个lead agent拆任务分派,specialist agents独立执行互不干扰,最后汇总。恰好是Anthropic的Multi-agent orchestration和一些国内产品在做的。


  • 模型选择


不是所有模型都适合多Agent协作。在多Agent系统里放一个容易从众的模型,等于往团队里塞了一个只会附和的人。


  • 独立推理和集体决策分开


让模型先独立思考完,再合并结论。不要让它们在推理过程中就互相干扰。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP