OpenAI为Codex推出Record&Replay功能，AI可通过观察学习人类电脑操作，沉淀为可复用技能，改变AI与软件的交互逻辑。 ## 1. Codex新功能：Record&Replay 录制复现人类操作 Record&Replay是Codex本次更新的重磅功能，核心是让AI观察人类完整操作一遍任务，将流程打包成可复用的skill（技能），下次即可自动执行同类任务。该功能瞄准**重复、带有个人隐性规则、文字描述成本极高**的任务，典型适用场景包括报销、订停车位、配置issue、发视频、拉周期性报表等。 ## 2. 操作流程与使用要点整个操作分为七步：在Codex添加Record&Replay插件、授予录制权限，人类正常完成任务，录制结束后，Codex会自动复盘生成包含使用场景、输入要求、执行步骤、结果验证的skill，还支持用户要求打磨优化。复用流程十分简单：新开对话调用对应skill，填入本次任务的可变参数即可；skill不是写死的脚本，而是可灵活适配当前环境的说明书，Codex会调动Computer Use、浏览器操作、已安装插件完成任务。官方给出多条实用建议：演示尽量短而完整，录前告知目标和可变输入，不录入密码敏感数据，补充隐性规则，完成任务即停止录制。 ## 3. 能力演示：灵活理解逻辑还能自行处理报错公开演示中，Codex完整观察学习了用户上传YouTube视频的全流程，记住了点击选文件、填写元数据、设置隐私选项等所有操作，可独立复现任务。 Codex不只机械复刻步骤，还能理解操作背后的逻辑，甚至可自行适配处理缺Python环境这类报错，学会的技能可无人值守反复执行，对重复内容工作帮助显著。 ## 4. Codex操作电脑的三种底层能力 Codex操作电脑分为三类路径，能力有重叠、各有适用场景，总原则为：能用插件或MCP就先用，视觉控制处理结构化工具覆盖不到的场景。 - **Computer Use**：覆盖面最广，可在macOS、Windows上操作图形界面，支持无API的应用，macOS可后台运行；但速度较慢，涉及金钱、支付等敏感操作需用户全程在场，Record&Replay依赖该能力实现，目前仅支持macOS。 - **Chrome扩展**：接管用户已登录的Chrome，适合依赖账号cookie的任务，可整合多标签页完成工作流；因带着用户身份操作，发送、发布等关键步骤需用户审核。 - **应用内浏览器**：运行在Codex对话内部，不碰用户本地浏览器的配置和登录信息，适合开发者调试Web应用，能形成改代码-操作-验证的紧密反馈循环。 ## 5. 功能基本信息与限制 Codex本身是对模型开放的客户端，不仅可搭配OpenAI自家模型，还可配置后对接本地开源模型、第三方模型服务。该功能目前有明确限制：仅支持macOS，首发不覆盖欧盟、英国、瑞士，必须开启Computer Use才能使用；组织管理员统一配置时，若关闭computer_use功能，Record&Replay会同步消失。如果需要团队复用、多技能整合，需将录制技能打包为独立插件而非停留在录制层面。 ## 6. 功能背后的行业趋势：人从操作者变成AI的训练者传统自动化依赖API，自动化的边界由软件开放的能力决定，Record&Replay绕开了这一限制，让AI直接学习人类使用图形界面软件的方式，将AI的工作对象从API扩展到整个图形界面。过去人是连接不同软件的中间层，当AI能跨应用执行任务后，用户的关注点将从「如何操作软件」转向「要完成什么任务」，未来频繁操作软件的可能是AI而非人类。该功能透露出明确新趋势：**人正在从软件的直接操作者，逐渐变成软件能力的训练者，未来教会AI使用工具会成为比自己使用工具更重要的能力**。

2026-06-19 10:08

刚刚，Codex 大更新，你在电脑的操作正在成为AI 经验包

AppSo

本文来自微信公众号： APPSO ，作者：发现明日产品的，原文标题：《刚刚，Codex 大更新，你在电脑的操作正在成为 AI 经验包》

你坐在电脑前干活，旁边有个家伙一声不吭盯着你。你点哪它看哪，你填什么它记什么，等你做完，它说一句：下次这活我来。

这就是Codex刚刚发布的重磅功能，叫Record&Replay。

翻译过来就是录制加复现。

你把一套操作完整演示一遍，Codex在旁边观察学习，然后把整套流程打包成一个skill（技能）。下回要干同样的活，新开个对话，让它调这个skill，再告诉它这次哪里不一样，剩下的它自己搞定。

图形界面，这个原本为了让人类摆脱命令行而发明的伟大创造，现在有望成了AI接管电脑的现成基础设施。

「学徒」模式上线，Codex开始复制你的工作流

当然，不是所有任务都适合这么玩。

Record&Replay瞄准的是那种重复、看个人偏好、说不清楚但做一遍你就懂的活。适用场景有这么几个：报销、订停车位、建一个配置正确的issue、发视频、拉周期性报表。

这些活有个共同点。要么步骤又固定又繁琐，要么里头藏着一堆只有你自己知道的隐性规则。

比如文件该怎么命名、某个字段默认填啥、到了某个岔路口该往哪走。这种东西你要用文字一条条写清楚给AI，成本极高。不如直接做一遍，让它自己看。

操作过程也比想象中省事，主要拆成了七步。

先在Codex应用里打开Plugins（插件），搜索并添加Record&Replay插件。

然后它来要录制权限，你准备好了就点同意。

剩下的就是你在Mac上正常把活干一遍。

这期间Codex全程观察，学这套操作要点哪些地方、动哪些窗口的内容。

录制会一直开着，直到你主动停止。所以记住，专心做那一个任务就行，别录着录着开始干别的。

干完从菜单栏或悬浮层停止，或者直接跟Codex说一声已经录完。

录完之后Codex会复盘一遍刚捕捉到的流程，自己起草一个skill。这个skill里写得很清楚：什么时候该用这套流程、需要哪些输入、按什么步骤走、做完怎么验证结果。

你要是觉得它写得不够好，还能让它再打磨。

几条录制建议值得照做：

演示尽量短而完整；录之前先把目标和那些每次会变的输入告诉Codex；用真实输入，但密码和敏感数据千万别录进去；录完后补上那些重要的隐性偏好，比如命名规范、字段默认值、决策点怎么选；流程做完就停，别拖到无关的收尾动作上。

至于，下次复现就简单了。新开对话，让它调这个skill，把这次的具体值喂给它，比如要传哪个文件、建哪个issue、报表要哪段时间。

有个关键设定需要注意：Codex会把这个skill当作可复用的上下文（reusable context）。

什么意思呢？这个skill不是一段写死的脚本，而是一份它每次都能拿来参考、再结合当前环境灵活执行的说明书。所以同一个skill，这次传A文件、下次传B文件，它都能套着用。

具体干活的时候，它会调动当前环境里能用的工具，包括Computer Use、浏览器操作和已安装的插件，把流程跑完。

Codex到底怎么「用电脑」

来看一次公开演示。

这回Codex要学的是上传YouTube视频的完整流程。它的工作方式是盯着用户在YouTube Studio里操作，把点击、选文件、敲文字这一整串动作全捕捉下来。

诸如选视频文件、填标题和描述、传缩略图、加字幕、设隐私选项等等，Codex全记下来了，随后展示了独立复现的能力。

更有意思的是，它不只是机械地照着步骤复读，还试图搞懂背后的逻辑和门道。

比如什么时候该把视频设成Private、什么时候设Unlisted，怎么管.mp4视频文件和.srt字幕文件这种成对的东西，元数据字段该怎么填，字幕怎么跟视频对上号。

它甚至现场处理了一次报错：

缺Python环境的时候，它直接从已安装的skill位置读信息，自己适配过去了。而这一整段录下来，转译成一个随时能调用的skill。

换句话说，Codex一旦学会，理论上就能在没人盯着的情况下反复执行。对那些天天要传一堆视频的内容工作流来说，这事确实有用。

要搞懂它凭什么能复现，得先看Codex到底怎么操作电脑。

OpenAI工程师Jason之前梳理过Codex用电脑的三条路，能力有重叠，各有各的地盘。总原则是：能用插件或MCP就先用，视觉控制留给结构化工具够不着的边角。

第一种叫Computer Use，覆盖面最广。

它能在macOS和Windows上看见并操作图形界面，通过窗口、菜单、键盘、剪贴板来动那些授权过的应用。

代价是慢，因为它得看界面、判断点哪、等响应、再确认状态，一步一回头。但好处也明显，那些没有API的应用它也能对付，比如Spotify、Xcode、系统设置、iOS模拟器，甚至能通过iPhone镜像去操作iPhone。

在macOS上它还能后台跑，你能同时干别的。它信任边界也最宽，凡涉及钱、账户、支付、凭据的改动，建议你全程在场盯着。

这也解释了为什么Record&Replay只能跟着Computer Use一起开启。它录下来的操作要复现，靠的就是Computer Use这套看界面、动鼠标键盘的底层能力。

第二种是Chrome扩展。

它接管你已经登录好的Chrome，适合那种靠账号、cookie、已认证标签页的任务，比如Gmail、Salesforce、内部仪表盘。它能玩多标签，把同一个任务的好几个标签页串成一个完整工作流来理解。

代价是它带着你的身份在动，网站会把它的点击和提交都当成你本人，所以发送、发布、购买这种步骤一般得先过你审核。

第三种是应用内浏览器。

它活在Codex对话内部，跟你共享同一个渲染页面，特别适合开发调试Web应用。它最大的特点是隔离，不碰你的浏览器配置、cookie、扩展和登录会话。

需要的时候这是限制，不需要的时候反而是个干净的边界。开发者能让它改代码、操作页面、截图、修完再跑一遍，形成一个紧密的反馈循环，还能直接点页面元素留设计意见。

另外还有个叫Appshot的机制，它不操作电脑，只负责把Codex的注意力指到你眼前的东西上。在Mac上连按两下CMD键，它就抓最前面那个窗口，把图像和文字附进对话。你对着一个报错、一封邮件、一个看不懂的表单直接发问就行。

用Jason的话说，Appshot负责指方向，浏览器、Chrome扩展和Computer Use负责动手。而Record&Replay录下来的skill，正是可以随时调动上面任意一种或几种方式来复现。

人类操作软件的经验，正在变成AI技能

从今年以来，Codex的发布节奏仍在不断加速，许多人都不知道的是，Codex应用、CLI和SDK不是只能配OpenAI自家模型。

在config.toml里配一下model_providers，你可以把Codex指向Ollama、LM Studio这类本地开源模型，也能接Mistral、Azure、Amazon Bedrock这些第三方。传个--oss参数就能跑本地provider，不指定的话默认走oss_provider。

🔗https://developers.openai.com/codex/config-advanced#oss-mode-local-providers

也就是说，Record&Replay这种能力，载体本身是个对模型开放的客户端。

它也有适用范围。Record&Replay是从一次演示里快速造skill的捷径，但如果你想把一个稳定的包发给整个团队、捆绑好几个skill、加应用集成或MCP服务器、管安装元数据，那就别停在录制层面，老实打包成独立插件。

还有几个上手前最好先知道的限制。

Record&Replay目前只在macOS上能用，首发不覆盖欧盟、英国和瑞士，而且必须先开启Computer Use功能。

如果你是组织管理员，还有个坑得避开：

要是你们用requirements.toml统一管Codex，那[features].computer_use这一项是连Record&Replay一起管的。

🔗https://developers.openai.com/codex/record-and-replay

哪天把computer_use设成false，你会发现这俩功能一起消失。所以要是你发现「我这儿压根看不到Record&Replay」，先去查这一项是不是被关了。

「Record&Replay」的上线，看起来只是一个录制和复现操作的小功能，但放到更大的背景里，它代表的是AI与软件交互方式的一次变化。

过去，自动化的基础是API。软件必须先开放接口，把能力封装成机器能够调用的服务，自动化工具和AI才能接手流程。没有API，没有结构化入口，很多任务就无法实现自动化。

因此，传统自动化的边界，往往取决于软件愿意开放多少能力。

但现在，OpenAI试图绕开这层限制。它不再要求软件专门为AI提供接口，而是让AI直接学习人类使用软件的方式。人能看懂按钮、菜单和窗口，它也去理解；人能完成点击、输入和切换页面，它也去执行。

这意味着，AI的工作对象开始从API扩展到整个图形界面。换言之，「Computer Use」负责赋予AI操作电脑的能力，而「Record&Replay」则负责把人的操作经验沉淀成可复用的技能。

这背后对应的，其实是操作系统角色的变化。过去，操作系统是所有软件的组织者。我们在Mac或Windows上安装各种应用，再由人自己在不同软件之间切换、复制、整理和传递信息。

人始终是连接各个软件的中间层。

而当AI能够跨应用观察、理解并执行任务时，它开始承担这层角色。对于用户来说，关注点逐渐从「如何操作软件」，转向「想完成什么事情」。

报销软件怎么填、视频后台怎么配置、多个系统之间如何来回切换，这些细节理论上都可以交给AI处理。照这样发展下去，未来真正频繁使用软件的，未必是人，而是AI。

对于AI来说，漂亮的界面没有意义，复杂的菜单也没有意义。它更关心的是：这个软件能不能完成任务、能不能被调用、能不能稳定执行流程。

从这个角度看，「Record&Replay」真正有意思的地方，不是又多了一个自动化功能，而是它透露出一种新的趋势：人正在从软件的直接操作者，逐渐变成软件能力的训练者。

今天我们学习怎么使用工具，未来或许更重要的一项能力，是教会AI使用工具。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定