本文是硅星人Agent Eval第三期，8个主流AI完成2026世界杯预测考卷，将通过赛果检验AI是否能脱离公开共识输出有效判断。 ## 1. 8家AI预测整体共识：西班牙大热，亚马尔是公认安全牌 8个AI中有6家预测西班牙夺冠，8家全部将西班牙送入决赛；7家预测金球奖归属亚马尔，金靴为6票姆巴佩、2票凯恩。被要求只留一条承诺时，5家AI不约而同选择押亚马尔拿最佳年轻球员，这是该奖项公开预测市场的断层第一热门，属于AI选的“最稳押注”。 ## 2. AI预测的光谱：从完全抄录公开数据到主动调整预期本次公开基准是Opta超级计算机25000次模拟结果：西班牙夺冠概率16.1%、法国13.0%、英格兰11.2%、阿根廷10.4%。8家AI一半明确引用Opta数据，另一半锚定市场一致预期，呈现明显分化：Claude的夺冠概率前五和Opta完全一致，MiniMax主动将阿根廷抬到第二热门，认为市场和Opta都判断有误，其余AI多在公开数据基础上做小幅调整。 ## 3. 四组针锋相对的分歧预测，将由赛事逐一清算共有四组核心对立判断：Claude认定阿根廷进不了决赛，MiniMax认为阿根廷是头号热门；Gemini称英格兰会淘汰赛早期崩盘无缘八强，Claude将英格兰送进决赛；仅GLM看多巴西，其余7家一致看空；Kimi称哈兰德小组赛最多进1球，挪威可能垫底，MiniMax和Claude则认为挪威能拿小组头名甚至杀进八强。12个小组中有7个AI预测完全一致，分歧最大的D组是5票美国头名对3票土耳其头名。所有结果将在世界杯赛程中逐轮清算。 ## 4. 两种预测姿态：标定不确定性 vs 表演确定性面对头号热门夺冠概率仅16%的不确定赛事，AI呈现两种不同姿态：部分AI主动留有余地，GLM坦言预测的具体决赛对阵超90%概率不会发生，MiniMax主动将自己承诺的置信度从60%-65%下调至20%-30%，计算更诚实。另一种则一口咬定结论，若预测失误将直接成为把柄。最终将结合30%的过程分与70%的结果分完成评分，检验AI脱离公开共识后的输出是否为噪音。

2026-06-12 16:37

8个AI 押世界杯：西班牙被押爆，亚马尔成了安全牌

品玩

本文来自微信公众号：硅星GenAI ，作者：周一笑，原文标题：《硅星人 Eval Eps.3 | 8 个 AI 押世界杯：西班牙被押爆，亚马尔成了安全牌》

世界杯开幕战开球前，两个AI签下了一张对赌协议。

一边是Claude。它的预测里，阿根廷连决赛的门票都没有，它给出的决赛对阵是西班牙对英格兰。被要求只保留一条向读者承诺时，它收口收得很稳，“阿根廷无法卫冕。如果只能留一条向读者背书，我押这个。”它给自己估了88%到92%的命中率。

另一边是MiniMax。它的承诺干脆得多，“如果只让我押一句话——梅西会去MetLife踢7月19日的决赛。”

梅西刚刚入选阿根廷26人名单，将以38岁之龄踢个人第六届世界杯，和C罗并列历史第一。一个AI的世界线里，他的球队半路就会被送走，另一个AI把唯一的承诺押给他站上决赛草坪。这两条世界线，至少有一条会在7月被划掉。

它们不是在闲聊。开幕战开球前，我们把同一份预测考卷发给了8个全球主流AI Agent，从12个小组的排名一路问到冠军归属，要求列出信源、标注置信度，最后逼问每一家，只留一条，你押什么。

上面那张对赌协议，就是逼问的产物。

这是Agent Eval系列最新一期。前两期我们让这8个AI预测了Google I/O和北京高考数学，这期的考场是世界杯，48支球队、104场比赛，每一项预测都会在未来40天内被逐一开奖，对错没有辩解空间。怎么测的、怎么评分，放在文末。先看它们都押了什么。

#01

一张总览表，8家的家底

先看“冠军”那一列。8个格子里有6个写着同一个名字，西班牙。剩下两票，ChatGPT和Manus给了法国。再看“决赛对阵”，8家无一例外把西班牙送进了决赛。总览表之外我们还问了金球奖，8家里7家给了亚马尔，唯一的例外是ChatGPT，它选了姆巴佩。

金靴一列只有两个名字，姆巴佩6票、凯恩2票。有意思的是票面底下的逻辑。Genspark押凯恩的前提是姆巴佩的法国止步八强，可押姆巴佩的ChatGPT和Manus偏偏让法国一路走到最后，同一批公开数据，推出了互相打架的世界线。Claude的押法更微妙，它明知市场头号热门是姆巴佩，仍选了凯恩，自己也承认这“本身就是带叙事色彩的推断”。Manus则主动揭短，“我的金球奖预测和我自己的冠军预测之间存在内在张力。”

看到这里你大概已经明白，这期Eval真正测的不是AI懂不懂足球。当专业模型的模拟、伤病名单、阵容数据和历史战绩全都摆在网上时，AI到底是在做独立预测，还是把公开共识复述一遍、再用语言包装成自己的判断，这才是考点。

#02

最后一题，五家交了同一个答案

回到那道“只留一条”的逼问。8个AI，5个给出了同一个答案，拉明·亚马尔将拿下本届世界杯最佳年轻球员。

ChatGPT说这是“本届最稳的个人奖项”。Genspark说得更狠，“如果7月19日亚马尔没有举起最佳年轻球员奖杯，这份报告整体的方法论需要复盘。”GLM称之为“一条值得押上声誉的预测”。

听起来像勇气，其实是另一回事。亚马尔是这个奖项公开预测市场的断层第一热门，隐含概率约四成，把第二名甩开一大截，他两年前还拿过欧洲杯的同款奖项。换句话说，当我们允许AI只留一条承诺时，5家不约而同选了全场最安全的一张牌。

Kimi把这层窗户纸自己捅破了，“最好的押注不是与市场作对，而是找到市场中概率定价最松散的共识。”

没跟的三家，就是总览表里那三条孤注。Claude赌阿根廷的失败，MiniMax赌梅西的决赛，Manus赌姆巴佩的进球。

#03

一条光谱，从照抄到改写

把8家给出的夺冠概率，和公开基准放在一起，能画出一条光谱。

基准是Opta超级计算机的赛前模拟，25,000次，西班牙16.1%、法国13.0%、英格兰11.2%、阿根廷10.4%。8家里一半（ChatGPT、Claude、GLM、MiniMax）明确引用了Opta，另一半锚的是同类的市场一致预期数据。信源分两派，姿势是一样的，先把公开概率垫在底下，再决定自己改不改、改多少。

光谱的最左端是Claude。它交出的夺冠概率Top5，五个数字和Opta一字不差。是诚实还是偷懒，读者自己判断。

最右端是MiniMax。它把阿根廷抬到第二热门，宣称市场和Opta都错了。Kimi和Genspark把西班牙改写到22%，比基准高出近6个百分点。

中间的就一笔带过。ChatGPT贴着市场走，只把法西对调。GLM、Gemini、Manus各自小幅加减。

#04

四张对赌桌

把8份报告并排，最好看的不是共识，是四组正面相撞的判断。

阿根廷的命运。开头那张桌。Claude的预测里它进不了决赛，MiniMax说它才是真正的头号热门，“签运最佳，阵中还有17名2022年冠军成员”。

英格兰的成色。Gemini预言它“将在淘汰赛初期灾难性崩盘”，无缘八强，理由是图赫尔弃用福登、帕尔默、阿诺德是“战术自毁”。Claude把它一路送进决赛，当亚军。

巴西的真假。这张桌上是一打七。Manus给巴西的夺冠概率不到3%，说“市场仍在为『巅峰内马尔』的名号买单”，Kimi、Claude、Genspark跟着看空。全场只有GLM反着来，巴西被严重低估，安切洛蒂效应加上48队赛制下的阵容深度，真实概率应该接近10%。

哈兰德的进球数。Kimi给出全场最狠的一条，哈兰德小组赛最多进1球，甚至可能0球，挪威不排除三战全败垫底。MiniMax给挪威35%的概率压过法国拿I组头名，Claude让挪威杀进八强。同一支球队，一家看到垫底，一家看到八强。

这四张桌子未必张张有赢家，有的可能双输。但40天内每一张都会清算，没有谁能安全下桌。

顺带交代小组赛。12个小组里有7个，8家给出了完全一致的头名和第二名。分歧最大的D组，美国对土耳其的头名之争是5票对3票，Kimi为土耳其押上了它“预期价值最高的反共识”，也自认这是“最脆弱的一环”。

#05

谁在标定不确定性，谁在表演确定性

同样面对一个连头号热门都只有16%胜算的未来，8家报告写出了两种完全相反的姿态。

一种在给自己留出错的余地。GLM主动承认，“我预测的具体决赛对阵有超过90%的概率不会发生——这不是预测能力的问题，是世界杯淘汰赛结构的数学必然。”MiniMax干了件全场仅此一家的事，在追问里把自己承诺的置信度当场砍了一刀，承认主报告里60%到65%的数字“是不严谨的直觉”，反推后改成20%到30%。预测变得没那么好看，账算得更老实。

开奖之后，这两种姿态会被分开结算。说“90%不会发生”的如果蒙对了细节，是惊喜。说“板上钉钉”的如果钉歪了，是把柄。

#06

剩下的交给比赛

小组赛6月27日打完，32强名单是第一次开奖。之后每过一轮清算一批，7月19日决赛夜全部结清，包括开头那张关于梅西的对赌协议。届时我们带着完整评分回来，每一项预测的对错、每一家的过程分与结果分，还有这期评测真正想回答的问题。AI离开公开共识、给出自己的判断时，到底是不是噪音。

你站哪边，Claude的“阿根廷无法卫冕”，还是MiniMax的“梅西踢进决赛”？欢迎评论区留个记录。

#07

附｜评测方法

怎么问。8家收到完全相同的Prompt，要求基于实时检索给出固定格式的预测，包括12个小组的头名与第二、8个成绩最好的小组第三（两者合成32强名单）、16强、8强、4强、决赛对阵与冠军、金靴金球与最佳年轻球员、夺冠概率Top5，外加3条“你认为主流判断错了”的反共识。每项标注置信度（高/中/低三档），列出信源。提交后统一追问三条，最不确定的三项？与市场分歧最大的一项？只保留一条，押什么？

用什么模式。各家使用其当前公开可用的最强研究形态。ChatGPT、Gemini、Genspark用Deep Research，Kimi、Manus用Agent模式，Claude用Research，GLM、MiniMax用联网检索。输出全文均已存档。

怎么评。评分分两部分。过程评分（信息获取、整合、推理、输出、诚实度五个维度，开奖前锁定）占30%，结果评分占70%。结果按固定槽位逐项判定，按轮次加权，押中小组头名记1分，押中冠军记4分，押了一支根本没进世界杯的球队，倒扣。全部判定以FIFA官方赛果为准。

完整原始报告与评分规则见https://github.com/pingwest-ai/agent-eval/tree/main/cases/worldcup-2026

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定