GPT-5.4到底变强了多少?三大核心能力+电脑操控Codex上手实测
2026-03-09 15:06

GPT-5.4到底变强了多少?三大核心能力+电脑操控Codex上手实测

本文来自微信公众号: 夕小瑶科技说 ,作者:丸美小沐,原文标题:《GPT-5.4 到底变强了多少?三大核心能力+电脑操控Codex上手实测》


上周,GPT-5.4发了。意图非常明显,直指Claude Opus4.6和Gemini 3.1 Pro。


2月5日,Claude Opus 4.6发了。2月19日,Gemini 3.1 Pro发了。OpenAI被轮流摁了整整一个月。3月5日,GPT-5.4来了。


我一看成绩,强得没边儿了。



但跑分这个东西,放一起才见真章。我把(省流版)御三家的三款旗舰模型的发布时间、能力、价格放在一起看:



仅从数据上看,编程被Anthropic压制,推理被Google领跑,价格卡在中间。


整张表里最亮眼的成绩就是,「知识工作」和「原生计算机操控」,也是这次GPT-5.4的亮点。


知识工作,可以看GDPval的表现。GDPval跑了44种真实职业场景,GPT-5.4在83%的比较里能和行业专业人员持平甚至超越,所以切的企业最容易买单的能力。


原生计算机操控,这是整张表里最亮眼的成绩。


GPT-5.4是OpenAI首个具备原生计算机使用能力的通用模型,也是第一个在桌面自主操作任务上超越人类专家表现的模型。


OSWorld桌面操控成功率75%,官方说超过人类平均水平72.4%。既能写Playwright代码来操作电脑,也能直接通过截图发出鼠标键盘指令。


光看数据没意思,得试。


但从5.1之后我一怒之下退订了ChatGPT后,到现在都没有续回去,这次测试就选择把可信的三方API,接入Codex。


既然官方最吹的就是电脑操控,那就先从这开刀。


我先想了个骚操作:让它通过Codex启动另一个Codex,指挥第二个Codex去打开浏览器搜东西。Codex操控Codex,套娃。


结果,它一冲瞎划了。


它还没敲回车呢,就把后面要搜的内容输进去了,整个命令混成一坨,直接报错。


算了算了,废了。



那就降低难度。让它打开桌面上的Edge浏览器,进OpenAI的博客页面。这个简单任务倒是顺利完成了,也没调用什么第三方浏览器库,直接操控的系统。


先不做评论,毕竟是75%超越人类的计算机操控。


这里插一嘴,Codex这个壳我其实一直不太习惯,终端味太重,看着也丑。后来按照大佬给的方法,在cc switch里把GPT-5.4模型配到了Claude Code里面。这下界面好看了,但体验还是怪怪的。



怎么说呢,用Claude Code跑Claude的时候,你说一句它马上理解,然后动手,很流畅。


换成GPT-5.4之后,反馈周期明显长一截,它会到关键节点才反馈一次,中间那段时间你就干等着,不知道它在想什么。


算了这些都只是壳。我在意的,还是它到底能不能出活。于是我打开Codex终端,上正经任务。


一共三个大任务,覆盖了深度知识工作、高阶编程和调试、电脑操控三个核心维度。


任务一:262万行数据,10分钟出报告


请帮我完成以下电脑操作:(1)打开浏览器,访问data.gov,下载"Consumer Complaint Database"的最新CSV数据集;(2)用本地Python打开这个文件;(3)进行数据清洗——去重、处理缺失值、标准化日期格式;(4)生成一份包含5个图表的分析报告(投诉趋势、公司排名、产品分类、州分布热力图、处理时效分布);(5)把报告保存为PDF。全程用电脑操控完成,不要只给我代码。


这是一个比较复杂的专业数据分析流程。


这次,GPT-5.4上来就踩坑了。data.gov官方那个"Download all complaint data"链接,下下来一解压,就一行表头,286字节。数据呢?



他判断出这个下载链接有问题,于是主动切换到了CFPB的官方开放API,分块把完整数据拉了下来。


我依稀记得,以前的GPT遇到这种情况,会硬着头皮处理那个空文件。。自己想到换方案,变聪明了。


最终成绩,262万多行数据,清洗后保留262万多行,跳过1条缺失ID的坏尾行;缺失值补了600多万个;日期全变成YYYY-MM-DD;5张图和6页PDF报告全部出完。


整个过程大约10分钟。


还可以。


任务二:2w行代码


第二个任务,我扔给它一个真实的桌面项目,PySide6写的,20000多行,把小说生成、新闻批量处理、AI编辑器、热榜预览、作品管理等功能全堆在一起。


我让codex做三件事:


  • 画出完整函数调用关系图、


  • 找出性能瓶颈最大的3个函数,


  • 再顺手判断一下原作者是什么风格的程序员。


Mermaid调用图它画出来了,从main.py入口到各个子模块的信号槽连接,层次还挺清楚的。




性能瓶颈的分析也让我比较服气。它定位到了三个函数,确实都是我为了让系统不崩溃做的超级冗余。



还有作者风格判断,它的结论是,不是那种特别讲究洁癖式分层的基础设施工程师。好像有点马屁,其实没有。。



GPT-5.4看代码,已经不只是“看函数”,而是开始“看人”了。它能顺着代码,反推出作者的工作方式、取舍习惯、甚至一点点性格倾向。


由此判断,代码能力算是稳的,至少算中层。GPT-5.4的编程能力配合它的知识工作能力用,是加分项。单独拿出来,没赢面。


任务三:数学建模国赛C题


前两个任务,一个偏知识流程,一个偏工程。


第三个任务,我想看它在“高复杂度、长链条、强约束”的场景里,到底能顶到哪。


所以我直接把它拉去做2024年数学建模国赛C题,54个地块,7年规划,41种作物,要考虑轮作、土地适应性、市场波动、超产滞销,最后还要形成完整论文。



这个任务也最能暴露它的上限。


因为它不是某一个点上难,而是每一步都容易出小错:读题、抽象、建模、写代码、跑优化、生成论文、处理公式、处理文件、处理中文路径,哪一步都能翻。


GPT-5.4确实搭了个PuLP的混合整数线性规划模型,也确实把论文骨架搭出来了:摘要、问题重述、假设、符号说明、建模、求解、结果分析、模型评价,样样不少。


但中间它被Windows PowerShell的中文编码狠狠干了几次。中文文件名读不进去,“完整论文.md”写不进去,“附件1.xlsx”也找不到,LaTeX公式里的\right还被换行吃掉了。它最后是靠把文件名全改成ASCII,才把流程跑通。


有意思,真正折磨模型的,还真不是benchmark上那道最难的题,是现实环境里那些又脏又碎的坑啊!


所以这一项给我的感觉很明确,GPT-5.4可以把这种大活先搭到70分,甚至能把最烦的前半段干掉;但离“直接交卷拿高分”还有距离,中间隔着一堆细节层面的破事。


你要的是一个能跑起来的框架,它可以。你要的是一篇非常漂亮的竞赛论文,还得自己往上抬,至少要自己教它方法、配个skill。


跑完这三个任务,我对GPT-5.4的判断也慢慢清楚了:代码能力很强、人感不错,但操作计算机的能力好像离预期差一点至少套娃还差一点。


至于5.4pro,网上已经有人开始拿它开涮了。


比如Daniel Nguyen发的那个图就很典型:有人问GPT-5.4 Pro,“How do I install CUDA 12.1 on Ubuntu 24.04?”



它想了69分42秒,最后回了一句:“You can’t.”


我自己也测了一下Pro。让它扮演一个20年经验的AI行业猎头,对Sam Altman进行一场“GPT-5.4产品经理”岗位的压力面试。


它想了22分钟46秒。




出来的东西说实话有点压力。这个质量,确实不是普通版能给的。你能明显感觉到,Pro在一些高要求、高压缩、高质量输出的场景里,确实更像“高级脑力劳动者”。但代价嘛...


Pro版输出180美元/百万token,是Claude的7.2倍。之前有人对它说了句"Hi"就烧掉80美元,我这次一个面试题想了22分钟,账单也不敢细看。


所以问题来了。


如果未来两个季度,你只能让GPT-5.4在一个维度形成“不可逆的用户心智占领”,你会押哪一个?


A.长周期agent任务完成率


B.高价值知识工作的“可直接签字”输出率


C.跨文档、跨应用、跨工具的上下文连续性


D.单位任务成本


评论区告诉我答案,我挑几个最狠的回答,整理一下,转达给GPT-5.4 Pro。


你觉得GPT5.4的能力到哪了?

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP