2025-12-12 15:27

GPT-5.2，对Gemini-3反手一掌，2026做牛马比当学霸重要

未尽研究

本文来自微信公众号：未尽研究，作者：未尽研究

你方唱罢我登场，各领风骚十几天。

GPT-5.2出来了，它实现了对Gemini-3和Claude-4.5的部分反超，在多个实用领域都更强了：做表格、弄PPT、写代码、理解长文档、调用工具、处理复杂多步骤项目……视觉理解能力也大幅提升，能辨别出板卡上的螺丝钉。

（来源OpenAI）

从5.1到5.2，仅用了30天，OpenAI回答了市场上对其前景的质疑，证明了团队实力，预示了2026年，扩展定律依然是前沿大模型的竞争的最重要法宝，基础设施将起到更重要的作用。

OpenAI首次引入了它自己开发的打工能力的测评基准GDPval，要证明它既会做学霸，也能当牛马。

结果5.2成为首个达到或超过人类专家水平的模型。根据人类专家评审的结果，5.2 Thinking在GDPval的知识型任务中，有70.9%的项目表现优于顶尖行业专业人士或持平。这些任务包括那些白领打工基本技能，如制作演示文稿、电子表格以及其他活儿。5.2 Thinking的输出速度在GDPval任务中比专家快11倍以上，成本却不到其1%。这表明，在有人类监督的情况下，GPT‑5.2能有效辅助专业工作。

（在GDPval测试中，模型尝试完成定义明确的知识型工作，内容涵盖美国GDP贡献度最高的9个行业中的44种职业。任务要求生成真实的工作成果。）

两个半月前，OpenAI公布这个测评体系时，GPT-5的得分，不及当时的Claude最高版本Opus 4.1，但是胜过Gemini 2.5和Grok-4。如今，5.2得分几乎翻倍。

（来源OpenAI）

尽管如此，GPT‑5.2 Thinking想要在实际工作中替代OpenAI的员工仍然相当遥远。在最新系统卡（system-card）的AI自我改进（Self-Improvement）能力测评中，GPT‑5.2 Thinking并没有未达到一名表现优秀的中等资历（mid-career）研究工程师的水平。OpenAI基于20个曾导致重大项目至少延迟一天的真实研发瓶颈问题，构建了OPQA测试基准。结果，即使在可访问历史代码、日志和实验数据的条件下，GPT-5.2 Thinking仍缺乏有效诊断问题根源并提出合理解释的能力，它做得比GPT-5.1 Codex Max更差一点。不能自主发现、分析、解决新问题，意味着AI距离“自我改进”所需的能力仍有巨大差距。

（来源OpenAI）

也就是说，大模型仍然是“高分低能”，干活出活能力，还没有摆脱最初级的水平。

但我们也不得不服前沿大模型的学霸级考试水平。ARC-AGI也在第一时间发布了测试结果。5.2的准确率高达90.5%，每个任务的成本仅为11.64美元，一年内效率提升了约390倍。回顾过去12个月，在ARC-AGI测试中，任何超过85%的准确率都需要近乎疯狂的计算资源。早期对o3-preview的估算显示，每个任务的成本在3000美元到3万美元之间。基本上，每次想要得到一个答案，你消耗的算力成本相当于一辆汽车。现在GPT-5.2 Pro登场，取得了90.5%的准确率，而价格却只相当于几杯咖啡。已经相当接近人类95%的水平了。

（来源ARC-AGI）

让智能体干活，我们正悄无声息地跨越与人工成本持平的界限，几乎无人察觉。整个推理的经济格局正在发生翻天覆地的变化。我们才刚刚开始，接下来会有更快的优化。

谷歌用TPU-6集群首次训练出最领先的前沿大模型Gemini-3，动摇了英伟达GPU一统天下的格局。Anthropic与谷歌TPU和亚马逊Trainium的合作，明年分别都达到了百万卡级。

OpenAI与xAI主要依靠英伟达GPU。这次OpenAI还披露，5.2是其与长期合作伙伴英伟达和微软共同打造的成果。Azure数据中心与英伟达的H100、H200、GB200-NVL72等GPU构成了OpenAI大规模训练的核心基础设施，为模型智能带来了显著提升。“正是这种合作，使我们能够更有信心地扩展算力，并更快速地将新模型推向市场。”

这预示着到了2026年的大模型之争，也将是一场基础设施之争。今年砸下的数千亿美元，明年将实现滚滚算力。一代GPU，一代大模型。B200和B300的全面担当主力，英伟达Rubin CPX预计年底上市，专为长上下文推理和视频生成应用设计。还有TPU-7、Trainium-3的上市。大模型新一波扩展，值得期待。

小结一下，5.2对于明年意味着什么：

1，前沿大模型将会继续拼扩展定律，也就是拼基础设施。明年的下一代模型竞争值得期待。在基础设施门槛显著提升的情况下，明年中国的DeepSeek-3.x或4用什么基础设施预训练？

2，在这样的大模型竞争升级态势下，美国已经放开对中国H200的出口，它用来训练GPT-5，仍然起到了主力作用。这样，中国领先的开源模型，在训练阶段是否需要H200？

3，面向真实工作场景，扩展可验证性，建立相应测评基准，加快大模型的实际使用，实现其经济性，智能体完成复杂真实任务，将是明年一个竞争重点；也就是说，AI大模型公司拼ARR，比争当学霸更重要了。这也是中国快速学习、打分优异的开源模型需要直面的价值变现问题。

5.2各项能力的得分，最权威和最详细的，以及它的系统卡，可以看OpenAI官网的公布：

https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定