本文来自微信公众号: 不懂经 ,作者:不懂经也叔的Rust
安德烈·卡帕西(Andrej Karpathy),openai前创始成员,深度学习与自动驾驶等方向的专家,也曾担任特斯拉AI的负责人,这两年崛起的AI意见领袖。
今天,他发了一条推文,其中说到,“作为一名程序员,我从没像现在这样强烈地感到自己落后了。这个职业正在被大幅重构……一场9级地震正在撼动整个行业。撸起袖子加油干吧,别被甩下来。”
这条推文,可能把2025年程序员群体的集体体感说透了:焦虑、兴奋、以及一种“不学就会掉队”的窒息感。过去一年,代理(agents)、子代理、MCP模型上下文协议、工作流、IDE集成等新名词层出不穷;企业一边为追逐AI生产力而裁员,一边又不断遭遇幻觉翻车、流程卡死与权限失控的现实成本。
卡帕西说,“这就像有人把一个强大的外星工具递给了所有人,只不过它没有说明书,每个人都得自己摸索该怎么理解、怎么操作。”
AI好像确实很能打了,2025年,也曾被认为是“agent代理元年”,那么,如今我们距离真正的“自动化的一切”到底还有多远?
《纽约客》刚刚发表了卡尔·纽波特的一篇文章,给出了一个冷静、甚至有点“泼冷水”的答案。纽波特的核心判断很直接:2025并没有迎来通用型AI代理的爆发,行业“过度承诺、交付不足”。
他指出,代理在编程领域之所以亮眼,是因为变成终端天然是文本世界,适配大语言模型。可一旦走出终端,进入需要鼠标点击、网页交互的真实工作流,速度慢、易卡住、错误会被多步骤任务放大。
著名AI批评者加里·马库斯(Gary Marcus)用了一句很刻薄的话:“他们是在笨拙的工具上再搭一层笨拙的工具。”而安德烈·卡帕西则在之前的采访中直言,代理“就是行不通(It’s just not working)”。
文章并不是否定AI,而是把兴奋拉回工程的现实与认知的基线:要么重建更“对机器人友好”的互联网协议,要么补上模型在时间、位置与常识推理上的短板。读到结尾,你可能会同意卡帕西那个判断:与其说这是“代理之年”,不如说更像“代理之十年(Decade of the Agent)”。
尖峰报告:稳定币到底是一场怎样的财富大转移?
This was supposed to be the year when autonomous agents took over everyday tasks.The tech industry overpromised and underdelivered.
ByCal Newport
December 27,2025
为什么人工智能没有在2025年改变我们的生活
原本这应该是“自主代理(autonomous agents)”接管日常琐事的一年。科技行业夸下海口,却交出了远低于承诺的结果。
一年前,OpenAI的首席执行官山姆·奥特曼做出大胆预测:“我们相信,在2025年,我们可能会看到第一批AI代理(AI agents)‘加入劳动力市场’,并在实质上改变公司的产出。”
几周后,这家公司的首席产品官凯文·韦尔(Kevin Weil)在1月于达沃斯举行的世界经济论坛会议上表示:“我认为,2025年是我们从ChatGPT只是个超级聪明的东西……走向ChatGPT能在现实世界替你做事的一年。”
他举例说,人工智能将能填写在线表格、预订餐厅座位。他后来还承诺:“我们一定能做到,毫无疑问。”(OpenAI与康泰纳仕(CondéNast,《纽约客》的所有者)有企业合作关系。)
这绝非小小的自夸。聊天机器人可以直接回应文本提示——比如回答问题,或写出一封电子邮件的初稿。但从理论上说,代理能够自行在数字世界中穿行,完成需要多步骤、并调用其他软件(例如网页浏览器)的任务。
想想预订酒店要做多少事:挑选合适的日期;按个人偏好筛选;阅读评价;在不同网站间搜索、比较价格与设施。代理从概念上完全可能把这些活动全都自动化。这类技术的影响将极其巨大。
聊天机器人对人类员工来说是方便的工具;而高效的A.I.代理可能会直接取代员工。赛富时(Salesforce)的首席执行官马克·贝尼奥夫(Marc Benioff)曾宣称他公司一半的工作由A.I.完成,他预测代理将帮助引爆一场“数字劳动力革命”,价值数万亿美元。
风投大佬和科技公司创始人纷纷补课,这个人在AI时代的含金量力正在飙升
在一定程度上,之所以把2025年称为“A.I.代理之年”,是因为到2024年底,这些工具在计算机编程方面已变得无可否认地娴熟。5月的一段OpenAICodex代理演示里,用户让工具修改他的个人网站:“在investment/tools旁边再加一个标签页,叫‘food I like’。在文档里放——tacos。”用户写道。
聊天机器人迅速完成一连串彼此关联的动作:它先查看网站目录中的文件;再检查一个看起来很有希望的文件内容;然后用搜索命令找出应插入新代码行的位置。代理弄清网站结构后,利用这些信息成功新增了一个页面,页面主题就是tacos。
作为一名计算机科学家,我不得不承认,Codex处理这个任务的方式,或多或少就像我会做的一样。硅谷因此深信:其他更困难的任务也将很快被攻克。
然而,当2025年临近尾声时,通用型A.I.代理的时代并未出现。今年秋天,OpenAI的联合创始人安德烈·卡帕西(Andrej Karpathy)离开公司并启动了一个A.I.教育项目,他形容代理“在认知上有所欠缺(cognitively lacking)”,并说:“就是行不通。”
长期批评科技行业炒作的加里·马库斯(Gary Marcus)最近在他的Substack上写道:“到目前为止,AI代理大多是个哑炮(dud)。”这种预测与现实之间的落差很重要。
能对答如流的聊天机器人、能扭曲现实的视频生成器确实令人惊叹,但单凭它们,并不能开启一个机器接管我们大量活动的世界。如果主要的A.I.公司无法交付广泛有用的代理,那么它们也许就无法兑现自己对“由A.I.驱动的未来”的承诺。
AI时代,曾经最简单的事,如今却成了最大的问题
“A.I.代理”这个词会让人联想到类似《黑客帝国》或《碟中谍:最终清算》那样火力全开的新技术。其实,代理并不是某种定制的数字大脑;相反,它们由聊天机器人同款的大语言模型驱动。
当你让一个代理去做家务式的任务时,一个控制程序——一种很直接的应用,用来协调代理的行动——会把你的请求转成给大语言模型的提示:我想完成什么、有哪些可用工具、我第一步该做什么?控制程序随后尝试语言模型建议的行动,把结果告诉它,再问:那我接下来该做什么?这个循环不断继续,直到大语言模型认为任务完成为止。
事实证明,这种架构特别擅长自动化软件开发。创建或修改一个计算机程序所需的大多数动作,都可以通过在文本终端里输入一小组有限命令来实现。这些命令会让计算机在文件系统中移动、在源文件中添加或更新文本,并在需要时把人类可读的代码编译成机器可读的比特。
对大语言模型来说,这是理想环境。“终端界面是基于文本的,而语言模型正是建立在文本这个领域之上,”亚历克斯·肖(Alex Shaw)——Terminal-Bench的共同创建者——告诉我。Terminal-Bench是一种流行工具,用于评估编码代理。
而像奥特曼设想的那种更通用的助手,则需要代理离开终端这种舒适的约束。因为大多数人完成电脑任务靠的是指指点点,一种能“加入劳动力市场”的A.I.很可能得学会使用鼠标,而这竟是个出人意料地困难的目标。
为什么聪明人正在纷纷逃离社交媒体?
《纽约时报》最近报道了一批新创业公司,它们在搭建“影子站点”——把美国联合航空和Gmail等热门网页复制出一份,让A.I.在这些复制页面上分析人类如何使用光标。7月,OpenAI发布了ChatGPT代理,这是一个能用网页浏览器完成任务的机器人早期版本。
但有一篇评测指出:“即使是点击、选择元素、搜索这类简单动作,也可能让代理花上几秒——甚至几分钟。”有一次,这个工具在一个房地产网站的下拉菜单里试图选中某个价格,竟卡住了将近一刻钟。
还有另一条提升代理能力的路:让现有工具变得更易于被A.I.掌握。一个开源努力旨在开发所谓的模型上下文协议(Model Context Protocol),这是一种标准化接口,允许代理通过文本请求来访问软件。
另一个是Google去年春天推出的Agent2Agent协议,它设想一个代理彼此直接交互的世界。如果我的个人A.I.能改为向一个专用A.I.发问——也许由酒店公司自己训练——让对方代我在订房网站上操作,那么它就不必亲自使用酒店预订站点。
当然,要围绕机器人重建互联网基础设施需要时间。(多年来,开发者一直积极试图阻止机器人在网站上乱动。)而且即便技术人员能完成这个项目,或成功驯服鼠标,他们还会面对另一项挑战:作为代理决策底座的大语言模型本身存在的弱点。
游戏真的变了,当“大空头”关掉基金开了付费群
在一段宣布ChatGPT代理亮相的视频里,奥特曼和一组OpenAI工程师演示了它的若干功能。有个时刻,它生成了一张地图,据称展示了走访北美三十座美国职业棒球大联盟球场的行程。奇怪的是,路线里竟包含墨西哥湾中部的一个停靠点。
你可以把这次翻车当成个例,但对硅谷批评者马库斯来说,这类错误凸显了更根本的问题。他告诉我,大模型缺乏对“世界中的事物如何运作”的充分理解,因此无法可靠地处理开放式任务。即便在相对直接的场景里,比如规划旅行,他说,“你仍然得推理时间,你仍然得推理位置”——这些是人类的基本能力,而语言模型在这方面很吃力。“他们是在笨拙的工具上再搭一层笨拙的工具,”他说。
还有评论者警告,代理会放大错误。聊天机器人用户很快就会发现,大模型有编造内容的倾向;一个广为人知的基准测试显示,OpenAI最前沿模型GPT-5的不同版本,其幻觉率大约在10%左右。
对于要完成多步骤任务的代理来说,这种半规律性的走神可能是灾难性的:只要一步走错,整个行动就可能偏离轨道。今年春天,《商业内幕》(Business Insider)的一条标题警告说:“别对AI代理太兴奋。它们会犯很多错。”
都2026年了,全世界最会搞钱的这群大聪明为什开始狂搞自媒体?
为了更好地理解一个大语言模型大脑可能如何走偏,我让ChatGPT讲解:如果它在驱动一个酒店预订代理,它会遵循怎样的计划。它描述了一套包含18个步骤与子步骤的序列:选择订房网站;对搜索结果应用筛选;输入信用卡信息;把预订摘要发给我;等等。
我对模型拆解活动的细致程度印象很深。(在你看到它们被一条条列出来之前,很容易低估这样一个常见任务究竟包含多少微小动作。)但我也能看出,我们这个假想代理可能在哪些地方脱轨。
比如子步骤4.4,让代理用一个公式给房间排序:α*(location score)+β*(rating score)−γ*(price penalty)+δ*(loyalty bonus)。在这种情况下,这确实是正确的做法类型,但大语言模型对细节的规定却令人不安地过于含糊。
它会如何计算这些惩罚(penalty)与奖励(bonus)值?又会如何选择权重(用希腊字母表示)来平衡它们?人类大概会靠反复试错和常识来手工调参,但谁知道大语言模型自己会怎么做。而小错误也会很要命:如果过度强调“价格惩罚”,你可能最终住进城里最不堪的酒店之一。
赚钱为什么越来越难?这是我看过的最深刻的一篇
几周前,奥特曼在一份内部备忘录中宣布:开发A.I.代理只是OpenAI诸多项目之一,公司将弱化这一方向,因为它想把重点放在改进核心聊天机器人产品上。就在去年这个时候,奥特曼这类领导者说得好像我们已经冲过了技术悬崖边,正混乱翻滚着坠向一支自动化劳动力大军。
现在看来,那种屏息狂热显得轻率。最近,为了校准自己对人工智能的预期,我一直在想起10月的一段播客采访:采访对象是OpenAI联合创始人卡帕西。采访者德瓦克什·帕特尔(Dwarkesh Patel)问他,为什么“代理之年”没有兑现。
“我感觉行业里存在一些过度预测,”卡帕西回答,“在我看来,这更准确的说法是:这是‘代理之十年(Decade of the Agent)’。”【懂】
