GPT-5.4重磅发布，直面Claude和Gemini的竞争。文章通过三大核心任务的实测，评估其知识工作、编程和原生计算机操控能力的真实水平，认为其框架搭建能力强，但细节处理与高昂成本仍是挑战。 ## 1. 竞争格局与核心亮点 - GPT-5.4是OpenAI为应对Claude Opus 4.6和Gemini 3.1 Pro推出的旗舰模型，在“知识工作”和“原生计算机操控”两项成绩最为亮眼。 - 在GDPval测试中，GPT-5.4在83%的比较中能与行业专业人员持平或超越；其OSWorld桌面操控成功率高达75%，官方称已超过人类平均水平（72.4%）。 ## 2. 原生计算机操控实测：喜忧参半 - 在套娃操控测试（指挥Codex启动另一个Codex进行搜索）中，GPT-5.4操作失误，命令混淆导致报错。 - 执行简单任务（打开Edge浏览器并访问OpenAI博客）则顺利完成，直接操控系统未调用第三方库。 ## 3. 任务一：深度知识工作（262万行数据分析） - GPT-5.4成功从有问题的data.gov链接切换至CFPB开放API，自主下载了262万多行数据，并完成了数据清洗、分析和报告生成。 - 整个过程耗时约10分钟，输出包含5张图表和6页PDF报告，展现了处理复杂专业流程的智能与高效。 ## 4. 任务二：高阶编程与代码洞察 - 面对一个2万行代码的PySide6桌面项目，GPT-5.4准确画出了函数调用关系图，并定位了三个真实的性能瓶颈函数。 - 它还能通过代码反推作者风格，判断其“不是洁癖式分层的基础设施工程师”，显示出“看人”的深层理解能力。 ## 5. 任务三：高复杂度数学建模挑战 - 在2024年数学建模国赛C题中，GPT-5.4搭建了完整的论文骨架和PuLP模型，但被Windows中文路径、编码等现实环境问题反复阻碍。 - 最终通过将文件名全改为ASCII才跑通流程，证明其能搭建70分的框架，但离“直接交卷拿高分”尚有距离，细节处理是短板。 ## 6. Pro版能力与成本权衡 - GPT-5.4 Pro在高质量输出场景（如模拟压力面试）中表现更像“高级脑力劳动者”，但响应极慢（22分钟）且成本惊人（180美元/百万token，是Claude的7.2倍）。 - 文章最后抛出选择题：未来应优先在长周期Agent任务完成率、高价值知识工作输出率、跨工具连续性或单位任务成本哪一个维度建立用户心智？

2026-03-09 15:06

GPT-5.4到底变强了多少？三大核心能力+电脑操控Codex上手实测

夕小瑶科技说©

本文来自微信公众号：夕小瑶科技说，作者：丸美小沐，原文标题：《GPT-5.4 到底变强了多少？三大核心能力+电脑操控Codex上手实测》

上周，GPT-5.4发了。意图非常明显，直指Claude Opus4.6和Gemini 3.1 Pro。

2月5日，Claude Opus 4.6发了。2月19日，Gemini 3.1 Pro发了。OpenAI被轮流摁了整整一个月。3月5日，GPT-5.4来了。

我一看成绩，强得没边儿了。

但跑分这个东西，放一起才见真章。我把（省流版）御三家的三款旗舰模型的发布时间、能力、价格放在一起看：

仅从数据上看，编程被Anthropic压制，推理被Google领跑，价格卡在中间。

整张表里最亮眼的成绩就是，「知识工作」和「原生计算机操控」，也是这次GPT-5.4的亮点。

知识工作，可以看GDPval的表现。GDPval跑了44种真实职业场景，GPT-5.4在83%的比较里能和行业专业人员持平甚至超越，所以切的企业最容易买单的能力。

原生计算机操控，这是整张表里最亮眼的成绩。

GPT-5.4是OpenAI首个具备原生计算机使用能力的通用模型，也是第一个在桌面自主操作任务上超越人类专家表现的模型。

OSWorld桌面操控成功率75%，官方说超过人类平均水平72.4%。既能写Playwright代码来操作电脑，也能直接通过截图发出鼠标键盘指令。

光看数据没意思，得试。

但从5.1之后我一怒之下退订了ChatGPT后，到现在都没有续回去，这次测试就选择把可信的三方API，接入Codex。

既然官方最吹的就是电脑操控，那就先从这开刀。

我先想了个骚操作：让它通过Codex启动另一个Codex，指挥第二个Codex去打开浏览器搜东西。Codex操控Codex，套娃。

结果，它一冲瞎划了。

它还没敲回车呢，就把后面要搜的内容输进去了，整个命令混成一坨，直接报错。

算了算了，废了。

那就降低难度。让它打开桌面上的Edge浏览器，进OpenAI的博客页面。这个简单任务倒是顺利完成了，也没调用什么第三方浏览器库，直接操控的系统。

先不做评论，毕竟是75%超越人类的计算机操控。

这里插一嘴，Codex这个壳我其实一直不太习惯，终端味太重，看着也丑。后来按照大佬给的方法，在cc switch里把GPT-5.4模型配到了Claude Code里面。这下界面好看了，但体验还是怪怪的。

怎么说呢，用Claude Code跑Claude的时候，你说一句它马上理解，然后动手，很流畅。

换成GPT-5.4之后，反馈周期明显长一截，它会到关键节点才反馈一次，中间那段时间你就干等着，不知道它在想什么。

算了这些都只是壳。我在意的，还是它到底能不能出活。于是我打开Codex终端，上正经任务。

一共三个大任务，覆盖了深度知识工作、高阶编程和调试、电脑操控三个核心维度。

任务一：262万行数据，10分钟出报告

请帮我完成以下电脑操作：（1）打开浏览器，访问data.gov，下载"Consumer Complaint Database"的最新CSV数据集；（2）用本地Python打开这个文件；（3）进行数据清洗——去重、处理缺失值、标准化日期格式；（4）生成一份包含5个图表的分析报告（投诉趋势、公司排名、产品分类、州分布热力图、处理时效分布）；（5）把报告保存为PDF。全程用电脑操控完成，不要只给我代码。

这是一个比较复杂的专业数据分析流程。

这次，GPT-5.4上来就踩坑了。data.gov官方那个"Download all complaint data"链接，下下来一解压，就一行表头，286字节。数据呢？