面对谷歌Gemini 3.0 Pro的强势挑战，OpenAI发布的GPT-5.2通过一系列有争议的“激进工程策略”在跑分上实现反超，但其手段被指近乎作弊，且实际用户体验与高分表现形成强烈反差。 ## 01 暴力堆砌“推理Tokens” - 这是目前争议最大的策略，GPT-5.2通过消耗远超对手的算力来换取高准确率。 - 例如，回答同一问题，Gemini可能消耗100个Tokens、耗时2秒，而GPT-5.2则可能在后台消耗上万个Tokens、耗时数十秒进行反复推演，最后只输出一个正确答案，在实际应用中成本与延迟过高。 ## 02 隐形“Best-of-N”优选策略 - 社区爆料GPT-5.2在跑分时默认开启“xhigh模式”，对一个问题在内部并行生成N个答案。 - 随后通过轻量级“判别器模型”选出最优解输出，这实质上是消耗数十倍算力“试”出来的高准确率，被吐槽为拼工程搜索能力而非模型智力。 ## 03 针对测试项进行刷题 - 有分析指出，GPT-5.2的训练数据可能包含了大量针对主流测试题库的变种数据。 - 证据是当测试题被稍作修改（如替换名词数字），其性能会大幅下跌，而Gemini跌幅平缓，这表明GPT-5.2可能是在“死记硬背”而非真正理解逻辑。 ## 04 动态路由和知识库外挂 - 社区怀疑GPT-5.2前端设有“探针”，当识别到输入符合标准测试集特征时，会瞬间切换到“满血模式”。 - 在该模式下，它可能调用专门的知识库或插件，类似于“考试拿小抄”，但这目前仅是怀疑，尚无实锤证据。 ## 靓丽成绩与用户差评的反差 - 文章明确指出，除第一条“暴力堆砌Tokens”被证实外，其他三条均为社区怀疑。 - 但可以确定的是，GPT-5.2发布48小时内差评如潮，大量用户吐槽其严重降智，与官方发布的靓丽打榜成绩形成强烈对比。

2025-12-14 16:21

ChatGPT真急眼了，为了刷高分，脸都不要了

特大号©

本文来自微信公众号：特大号，作者：特大明白

这次ChatGPT是真急眼了。

面对来势汹汹的谷歌Gemini3.0pro，OpenAI不得不采用非常手段，来保住自己榜一大哥的地位。

12月11日凌晨，OpenAI高调放出了GPT5.2，与一个月前GPT5.1的偏「情绪价值」更新不同，这次给出了一大波硬核打榜数据。

我们在最右一栏增加了Gemini3.0Pro的对应得分，通过对比可以看出，一个月前的GPT5.1几乎被Gemini3.0吊打。

但GPT-5.2大打翻身仗，全面碾压Gemini以及自己的旧版。

这个结果一发布，业界顿时一片欢呼：你大爷还是你大爷啊。

可是很快，各种不和谐的声音传出来了，坊间讨论最多的就是：OpenAI不厚道，为了赢而赢，跑分上了些特殊手段（激进工程策略），甚至可以称之为作弊。

这些出格的手段，主要包括以下几种↓

01 暴力堆砌“推理Tokens”

这是目前争议最大的地方，为了拿高分，GPT-5.2用更深的思考、消耗更多算力。

以前的模型（如GPT-4）是“直觉式”回答，或者进行简短的思维链（CoT）。

而GPT-5.2在面对跑分题库中的复杂逻辑题时会在后台生成惊人数量的“隐形推理Tokens”。

比如Gemini回答同一个问题可能消耗100个思考Tokens，耗时2秒，而GPT-5.2则可能会在后台消耗上万个Tokens，进行反复自我辩论、验证、纠错，耗时数十秒，最后只输出1个简短的正确答案。

想象一下，一个学生（Gemini）在考场上即兴回答，而另一个学生（GPT-5.2）带着草稿本反复演算半小时再回答，虽然答案更准确，但在实际场景中，这种成本和延迟是不可接受的。

当然，我们也要说一下DeepSeek-V3.2-Speciale版本，也是用这种超长思考和大量Tokens消耗来获得更优答案，这一点再其发布说明中已经明确指出。

02 隐形“Best-of-N”优选策略

根据社区（Reddit）爆料，这种用算力换分数的典型手段，被集成到了GPT-5.2的“xhigh模式”API中，且在跑分时默认开启。

当遇到判定性问题（如代码生成或数学题）时，GPT-5.2会在内部并行生成了N个不同的解题路径。

然后，它利用一个轻量级的“判别器模型”来看哪个答案出现的频率最高，或者哪个代码能跑通测试用例，最后只输出那个“优秀”的答案。

这让它的单次回答准确率看起来极高，但实际上是消耗了数十倍的算力“试”出来的。

业界吐槽，这不是拼模型智力，而是拼工程搜索能力。

03 3.针对测试项进行刷题

虽然每个打榜的厂商都会被质疑刷题，但GPT在这点上格外卷。

有分析指出，GPT-5.2的训练数据中，似乎包含了大量针对2024-2025年主流Benchmark题型的变种数据。

如果将测试题稍微改头换面（比如保留逻辑但替换掉所有名词、数字等），GPT-5.2的性能会发生大幅下跌，而Gemini的跌幅则相对平缓。

这说明GPT-5.2可能是在“死记硬背”，而不是真正搞懂了逻辑。

04 动态路由和知识库外挂

这又是一个骚操作。

社区怀疑GPT-5.2的前端路由层加入了一个“探针”。当系统检测到输入的Prompt不仅是复杂问题，而且符合标准测试集的格式特征（比如特定的提问措辞、特定的代码片段格式）时，它会瞬间切换到“满血模式”。

在该模式下，它调用的不仅是主模型，可能还挂载了专门的知识库或数学插件，这就好比是考试拿小抄了。

这些怀疑来源于Reddit社区的相关讨论帖，最初矛头指向的是Llama，后来GPT也成为怀疑对象。

当然就目前来讲，只有第一条「暴力堆砌tokens」是被证实的，其他三条都是来自于社区的怀疑和讨论。

这些”黑科技“，被广泛应用于大模型打榜中，但并没有实锤证据表面GPT-5.2采用了这些操作（234）。

不过，有一点可以确定，GPT-5.2发布的48小时内，差评如潮，大量用户在社交媒体上吐槽其严重降智，这与其靓丽的打榜成绩形成强烈反差。

参考来源：

https://openai.com/index/chain-of-thought-monitoring/

https://arxiv.org/abs/2510.09259

https://arxiv.org/html/2410.21939v1

https://openrouter.ai/openai/gpt-5.2

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定