面对谷歌Gemini 3.0 Pro的强势挑战,OpenAI发布的GPT-5.2通过一系列有争议的“激进工程策略”在跑分上实现反超,但其手段被指近乎作弊,且实际用户体验与高分表现形成强烈反差。 ## 01 暴力堆砌“推理Tokens” - 这是目前争议最大的策略,GPT-5.2通过消耗远超对手的算力来换取高准确率。 - 例如,回答同一问题,Gemini可能消耗100个Tokens、耗时2秒,而GPT-5.2则可能在后台消耗上万个Tokens、耗时数十秒进行反复推演,最后只输出一个正确答案,在实际应用中成本与延迟过高。 ## 02 隐形“Best-of-N”优选策略 - 社区爆料GPT-5.2在跑分时默认开启“xhigh模式”,对一个问题在内部并行生成N个答案。 - 随后通过轻量级“判别器模型”选出最优解输出,这实质上是消耗数十倍算力“试”出来的高准确率,被吐槽为拼工程搜索能力而非模型智力。 ## 03 针对测试项进行刷题 - 有分析指出,GPT-5.2的训练数据可能包含了大量针对主流测试题库的变种数据。 - 证据是当测试题被稍作修改(如替换名词数字),其性能会大幅下跌,而Gemini跌幅平缓,这表明GPT-5.2可能是在“死记硬背”而非真正理解逻辑。 ## 04 动态路由和知识库外挂 - 社区怀疑GPT-5.2前端设有“探针”,当识别到输入符合标准测试集特征时,会瞬间切换到“满血模式”。 - 在该模式下,它可能调用专门的知识库或插件,类似于“考试拿小抄”,但这目前仅是怀疑,尚无实锤证据。 ## 靓丽成绩与用户差评的反差 - 文章明确指出,除第一条“暴力堆砌Tokens”被证实外,其他三条均为社区怀疑。 - 但可以确定的是,GPT-5.2发布48小时内差评如潮,大量用户吐槽其严重降智,与官方发布的靓丽打榜成绩形成强烈对比。
ChatGPT真急眼了,为了刷高分,脸都不要了
2025-12-14 16:21

ChatGPT真急眼了,为了刷高分,脸都不要了

本文来自微信公众号: 特大号 ,作者:特大明白


这次ChatGPT是真急眼了。


面对来势汹汹的谷歌Gemini3.0pro,OpenAI不得不采用非常手段,来保住自己榜一大哥的地位。


12月11日凌晨,OpenAI高调放出了GPT5.2,与一个月前GPT5.1的偏「情绪价值」更新不同,这次给出了一大波硬核打榜数据。



我们在最右一栏增加了Gemini3.0Pro的对应得分,通过对比可以看出,一个月前的GPT5.1几乎被Gemini3.0吊打。


但GPT-5.2大打翻身仗,全面碾压Gemini以及自己的旧版。


这个结果一发布,业界顿时一片欢呼:你大爷还是你大爷啊。


可是很快,各种不和谐的声音传出来了,坊间讨论最多的就是:OpenAI不厚道,为了赢而赢,跑分上了些特殊手段(激进工程策略),甚至可以称之为作弊。


这些出格的手段,主要包括以下几种↓


01


暴力堆砌“推理Tokens”


这是目前争议最大的地方,为了拿高分,GPT-5.2用更深的思考、消耗更多算力。


以前的模型(如GPT-4)是“直觉式”回答,或者进行简短的思维链(CoT)。


而GPT-5.2在面对跑分题库中的复杂逻辑题时会在后台生成惊人数量的“隐形推理Tokens”。


比如Gemini回答同一个问题可能消耗100个思考Tokens,耗时2秒,而GPT-5.2则可能会在后台消耗上万个Tokens,进行反复自我辩论、验证、纠错,耗时数十秒,最后只输出1个简短的正确答案。


想象一下,一个学生(Gemini)在考场上即兴回答,而另一个学生(GPT-5.2)带着草稿本反复演算半小时再回答,虽然答案更准确,但在实际场景中,这种成本和延迟是不可接受的。


当然,我们也要说一下DeepSeek-V3.2-Speciale版本,也是用这种超长思考和大量Tokens消耗来获得更优答案,这一点再其发布说明中已经明确指出。


02


隐形“Best-of-N”优选策略


根据社区(Reddit)爆料,这种用算力换分数的典型手段,被集成到了GPT-5.2的“xhigh模式”API中,且在跑分时默认开启。


当遇到判定性问题(如代码生成或数学题)时,GPT-5.2会在内部并行生成了N个不同的解题路径。


然后,它利用一个轻量级的“判别器模型”来看哪个答案出现的频率最高,或者哪个代码能跑通测试用例,最后只输出那个“优秀”的答案。


这让它的单次回答准确率看起来极高,但实际上是消耗了数十倍的算力“试”出来的。


业界吐槽,这不是拼模型智力,而是拼工程搜索能力。


03


3.针对测试项进行刷题


虽然每个打榜的厂商都会被质疑刷题,但GPT在这点上格外卷。


有分析指出,GPT-5.2的训练数据中,似乎包含了大量针对2024-2025年主流Benchmark题型的变种数据。


如果将测试题稍微改头换面(比如保留逻辑但替换掉所有名词、数字等),GPT-5.2的性能会发生大幅下跌,而Gemini的跌幅则相对平缓。


这说明GPT-5.2可能是在“死记硬背”,而不是真正搞懂了逻辑。


04


动态路由和知识库外挂


这又是一个骚操作。


社区怀疑GPT-5.2的前端路由层加入了一个“探针”。当系统检测到输入的Prompt不仅是复杂问题,而且符合标准测试集的格式特征(比如特定的提问措辞、特定的代码片段格式)时,它会瞬间切换到“满血模式”。


在该模式下,它调用的不仅是主模型,可能还挂载了专门的知识库或数学插件,这就好比是考试拿小抄了。


这些怀疑来源于Reddit社区的相关讨论帖,最初矛头指向的是Llama,后来GPT也成为怀疑对象。


当然就目前来讲,只有第一条「暴力堆砌tokens」是被证实的,其他三条都是来自于社区的怀疑和讨论。


这些”黑科技“,被广泛应用于大模型打榜中,但并没有实锤证据表面GPT-5.2采用了这些操作(234)。


不过,有一点可以确定,GPT-5.2发布的48小时内,差评如潮,大量用户在社交媒体上吐槽其严重降智,这与其靓丽的打榜成绩形成强烈反差。


参考来源:


https://openai.com/index/chain-of-thought-monitoring/


https://arxiv.org/abs/2510.09259


https://arxiv.org/html/2410.21939v1


https://openrouter.ai/openai/gpt-5.2

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP