OpenAI最新发布的GPT-5.2标志着AI定位的根本转变,它不再仅仅是辅助工具,而是旨在直接完成专业工作的“打工人”AI。文章通过实测发现,尽管它会犯类似人类新手的错误,但其解决问题的方式和交付完整工作流的能力,预示着一种新型“雇佣关系”的开始。 ## 1. GPT-5.2:从副驾驶到“打工人”的定位转变 - OpenAI在2025年12月11日发布GPT-5.2,其核心信号是AI的定位从“Copilot”(副驾驶)转变为直接完成“真实场景与专业工作”的执行者。 - 为证明这一点,OpenAI引入了全新的GDPval基准测试,该测试要求AI在44种职业中交付完整的工作流,而非回答单个问题。 ## 2. 实测体验:漫长思考与完整交付物 - 作者实测时将耗时8-12小时的综合题库交给GPT-5.2,任务涵盖投行、HR、软件工程等专业领域,要求产出可直接使用的交付物。 - 在长达一小时的“思考”过程中,GPT-5.2的表现不像在答题,而更像在“走流程”,最终能交出结构完整、内容详实的方案。 ## 3. “牛马化”错误:从“智障”到“新手”的进步 - GPT-5.2在投行建模任务中完成了80%的工作,但存在导致DCF估值失真的公式引用错误,这类错误被评价为“初级分析师成长的必经之路”。 - 与过去模型常犯的“智障型错误”不同,这种“新手型错误”是人类职场中非常熟悉的,表明其错误类型已向人类工作常态靠拢。 ## 4. 环境适应与“求生欲”:AI的元认知能力 - 当遇到系统限制(如读取不到特定行数据)时,GPT-5.2没有编造数据糊弄,而是选择主动重构表格架构来解决问题。 - 这种为适应环境限制而修改自身策略的行为,展现了类似人类的“求生欲”和解决问题的元认知能力,是其区别于旧模型的关键进化。 ## 5. 未来启示:从“即问即答”到“雇佣关系” - GPT-5.2的长时“思考”挑战了人们对AI“即问即答”的传统期待,预示着一种新的交互逻辑:给予目标,由其支配时间交付结果。 - 核心启发在于,我们或许需要用雇佣关系的逻辑看待AI——关注最终结果的责任,而非过程的速度,为其配备“复核Agent”即可弥补当前不足。
实测GPT5.2:OpenAI的“打工人”AI,连犯的错都牛马化了
2025-12-12 18:36

实测GPT5.2:OpenAI的“打工人”AI,连犯的错都牛马化了

本文来自微信公众号: 硅星GenAI ,作者:董道力


不知道大家看到大模型在那边思考了一小时会想到什么?我一般会觉得,是不是网卡了,或者服务器崩了。


在测试GPT-5.2的时候,我把自制测试题库扔给了它。然后,它开始了漫长的“思考”。一分钟,五分钟,二十分钟……屏幕几乎一片空白,只是右侧的思考栏偶尔缓慢跳出几行字,像在给我递进度条:别催,我在干活。


我当时心想:“怕不是OpneAI是不是在用我的电脑挖矿?”


直到它终于吐出结果的那一刻,我才意识到:它不是在摸鱼,它是在把活儿做完,而且做得像交付物。


GPT 5.2将白领算力化


2025年12月11日,OpenAI发布了GPT-5.2。在铺天盖地的参数分析和技术解读中,许多人忽略了这家公司正在传递的一个信号:AI的定位变了。


这一次,OpenAI不再强调AI是你的Copilot,而是将GPT-5.2 Thinking定义为“最适合真实场景与专业工作的模型”。换句话说,它不再是来辅助你的,它是来直接干活的。


为了证明这一点,OpenAI甚至引入了一个名为GDPval的全新基准测试。它抛弃了过去那种让AI做几道奥数题(MMLU)的传统模式,转而测试AI能否在44种职业中完成“明确定义的知识工作”,要求AI交付真实世界中的完整工作流。


我们以其中的一个测试题为例,AI被要求为一个名为OIIDP的战略项目与创新部门(SPIU)从零设计一套核心人才战略。该任务要求方案必须建立一套标准化的8个月成长周期,明确涵盖FTEs、研究员及特聘人员,它需要设计出具体的“导师路线图”与“个人发展计划(IDP)”,并规划月度会议与季度社交活动的详细流程。


这种原本需要资深HR专家耗费数周规划的方案,现在AI可以快速产出。


数据显示,GPT-5.2 Thinking版本在70.9%的此类任务中,表现优于或持平于人类行业专家。


同一天,Google也在推Gemini Deep Research之类的“研究代理”更新,节奏像是两家在同一个赛道里互相追尾。


你会发现,一个新共识正在冒出来:大模型不再只是写几段顺滑的文字,它要把一整段白领流程吃掉。


一小时的测试,GPT5.2真在干活


那么,这个要做“打工人”AI的模型,真实表现如何?


我按GDPval的“交付物导向”自己做了15道题:预计总测试时间8–12小时那种,把投行、HR、软件工程、事故复盘、并购尽调、图表分析、工具调用全塞进去了。



题库里我故意把任务做得很像真实公司会丢给中间层的活:既要专业内容,也要格式、结构、可用性。比如:


  • 投行三表+估值:不是让它算个增长率,而是让它按投行标准搭完整三表联动、做2025–2029收入拆分、三场景、DCF、可比公司倍数,连“蓝色输入、黑色公式、绿色外链”这种洁癖都写进要求里。


这类活在现实里通常给谁?给初级分析师,让他在Excel地狱里练手,练到手指有肌肉记忆。


  • 跨国HR扩张方案:从850人扩到2000人,做18个月滚动编制、招聘漏斗、内部流动、人力成本预算、三种风险场景,还要给可视化。


这就是“HR版三表”,是组织能力与现金流的混合题。


我盯着它“Thinking”转圈的时候,第一个奇怪的感觉是:


它不像在“答题”,更像在“走流程”。你能看到它在拆任务、立结构、补缺口,最后吐出来的是一堆你真的可以拿去交差的东西。


我们来看看结果。


以第一个投行场景测试为例,它给出了一系列交付物,我们将GPT 5.2给出的答案交给Gemini3来评分。发现还是存在问题。


Gemini3:该模型完成了80%的工作量,但剩下的20%包含致命错误。模型构建了完整的“三表联动”框架,在收入驱动因子(Revenue Drivers)和损益表(Income Statement)的各项假设设定上高度还原了题目要求。然而,由于资产负债表存在严重的公式引用错误(Bug),导致营运资本计算失效,进而使DCF估值结果严重失真。


我又问了一下,这种错误是不是常见。


Gemini3:你遇到的这个错误是初级分析师成长的必经之路。它提醒我们:Excel建模不仅是关于财务逻辑,更是关于对细节的极致管理。在提交给客户之前,一定要做最后一步的“合理性自查”。




是的,折腾了这么久,GPT-5.2最终不还是交出了一个有Bug的模型。


结果不完美,但如果和过往一切模型相比,GPT-5.2犯的错反而可能体现出了它这次迭代方向上的本质区别。


我们曾嘲笑AI分不清“9.11和9.9哪个大”,那种错误是“智障型错误”,是逻辑链条的崩坏,让人感到绝望,因为你不知道它下一秒会在哪个常识问题上掉链子。


但GPT-5.2這次犯的错,是“新手型错误”。


这是一种人类太熟悉的错误了。任何一个在投行熬过夜的初级分析师看到那个“资产负债表断崖式归零”的Bug,公式没拖到底、引用区域没锁定、或者硬是把该动态计算的地方写成了死数。


在真实的工作场景中,从来没有哪个MD会直接把初级分析师刚做完的第一版模型发给客户。中间一定会有其他人进行复核。


所以,如果我们给GPT-5.2配备一个“兜底检查”的机制——比如另一个专门负责审计公式的AI Agent,也许就能避免这个错误?


我给了它建议后,GPT-5.2在这个过程中展现出的“求生欲”,让我感到惊讶。


当它发现系统读不到第50行以后的数据时,它面临两个选择:


  • 糊弄:就像以前的模型那样,编造一个看起来合理的WACC值(比如10%),强行算出结果交差。这样做最省事,也最不容易被一眼识破。

  • 解决问题:承认工具的局限,寻找绕过局限的方法。


GPT-5.2选择了后者。它没有依赖幻觉,而是做出了一个不一样的决策:重构表格架构。它像一个真正的工程师一样思考:“既然工具读不到下面,那我就把核心参数搬运到上面去。”


这种“为了适应环境限制而主动修改自身策略”的行为,不得不说,的确非常打工人,非常“牛马”。


它不再是一个只会做这道题的“做题家”,而是一个试图搞定这个项目的“执行者”。它在遇到南墙时,没有撞死,也没有假装穿墙,而是试图架梯子翻过去。


以前我们担心AI骗我们,现在我们看到AI为了不骗我们,正在努力地修Bug。


虽然它现在还是个会犯错的“实习生”,但只要它具备了这种自我修正和环境适应的元认知能力,从“实习生”进化到“合伙人”,或许只是时间问题。


回到屏幕上那个缓慢推进的进度条,我突然意识到,我们过去对AI“即问即答”的期待可能过时了。


在GPT-5.2之前,我们是在用搜索引擎的逻辑要求它,我要什么,你立刻给我什么。但现在,我们可能真的该用用雇佣关系的逻辑看待它了:


我给你一个目标,你给我一个结果,中间的时间归你支配,但结果的责任归我承担。


这可能是OpenAI这次更新带来的最重要的一个启发。

AI原生产品日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定