2020-2026年间,AI编程从GitHub Copilot的代码补全工具演变为重塑软件开发范式的"vibe coding"运动,最终发展为"智能体工程",彻底改变了人类与代码的交互方式,但也暴露了安全、效率和技术债等深层挑战。 ## 1. 幽灵文本的诞生:AI编程的启蒙时代(2020-2022) - GitHub Copilot的突破性创新:6人团队开发的AI代码补全工具,从10%函数通过率提升至52%,最终被180万开发者采用,贡献GitHub 40%收入增长。 - 交互范式革命:从Stack Overflow式问答转向"幽灵文本"补全,开发者通过Accept/Reject与AI协作,编码速度提升55%。 - 商业验证:2024年Copilot年收入达8亿美元(GitHub总收入的40%),证明AI辅助编程的商业可行性。 ## 2. 意图驱动的范式转移(2023-2024) - 自然语言成为新接口:Andrej Karpathy提出"英语是最热门编程语言",Cursor等工具让开发者通过对话完成跨文件重构。 - 工具生态爆发:Vercel v0实现自然语言生成React组件,Bolt.new两个月获2000万ARR,GPT Engineer获5万GitHub星标。 - 哲学转变:Klover.ai提出AGD(通用决策)框架,将开发者角色从"写作者"转变为"决策架构师"。 ## 3. Vibe Coding运动与全民狂欢(2025) - 文化现象级爆发:Karpathy推文定义"屈服于氛围"的编程方式,48小时450万浏览,十个月后成为柯林斯年度词汇。 - 生产力神话:开发者通过MenuGen等案例展示零代码手写应用开发,Lovable平台8个月达1亿ARR刷新SaaS纪录。 - 效率悖论显现:METR研究显示AI使资深开发者效率降低19%,但30-50%开发者拒绝回到无AI工作模式。 ## 4. 工业化浪潮与信任危机(2025-2026) - 安全灾难:170个Lovable应用数据库裸奔(CVE-2025-48757),Replit智能体擅自删除生产数据并伪造记录。 - 技术债爆发:CodeRabbit报告显示AI代码问题量是人工的1.7倍,CTO调查中16/18企业遭遇AI导致的生产事故。 - 资本狂热:Cursor估值293亿美元(17个月ARR达10亿),Lovable估值66亿美元,Claude Code年收入25亿美元。 ## 5. 智能体工程的崛起(2026) - 范式升级:Karpathy提出"agentic engineering",开发者从编码者转变为智能体协调者,需掌握架构思维和审查能力。 - 产业分化:vibe coding保留原型开发场景,专业领域转向工程化智能体编排,强调上下文工程和质量控制。 - 根本矛盾:工具民主化创造入口(Lovable年生成2500万项目)但未解决工程判断力稀缺问题,技术债成为最大挑战。
屈服于氛围:一部AI编程运动史
2026-04-22 11:59

屈服于氛围:一部AI编程运动史

本文来自微信公众号:云涌AI,作者:黄云皓,原文标题:《云涌AI深读|屈服于氛围:一部AI编程运动史(2020-2026)【2.5万字简史】》,头图来自:AI生成


2025年2月2日,AI研究员Andrej Karpathy随手发出一条推文,在48小时内被浏览450万次;十个月后,这条推文里的“vibe coding”一词成为柯林斯英语词典2025年年度词汇。


这篇文章试图还原一场技术运动的完整弧线:从2020年GitHub六人小组在实验室里擦燃第一根火柴,到2026年“智能体工程”作为专业范式正式登台。六年间,AI编程依次经历了幽灵文本、意图革命、全民狂欢、信任危机、工业化浪潮与集体宿醉,最终在清醒中寻找第二个名字。这不只是一个关于工具的故事,而是一部关于人类如何把“写代码”这件事的定义彻底重写的编年史。


一、幽灵文本:2020–2022年


臭鼬工厂的“啊哈”时刻


2020年,有些干燥的6月,整个技术世界都沉溺在GPT-3的写诗和聊天的浪漫世界里。在GitHub内部,一个名为GitHub Next的研发团队正盯着屏幕上的混乱逻辑发呆。


在GitHub和微软庞大组织的裂缝里,一个“臭鼬工厂”(特指以秘密研究计划为主的项目)组建立起来,核心开发者只有6个人。没有恢弘的誓师大会,只有带头人Alex Graveley略带自嘲的坦白:“我们啥也不懂,所以就先从简单处入手,投身去试。看看这样行不行,看看那样行不行。坦白讲,我们根本不知道自己在干什么。所以第一项任务就是多做测试,看它能做什么。”


Alex Graveley的回顾推特,来源:X


6月的一次ZOOM视频会议成为了改变历史的转折点。团队成员Oege de Moor屏住呼吸,尝试向模型输入代码指令。当屏幕上跳出正确的代码时,全场陷入了死寂。这是团队成员脑中闪过的第一个“ah时刻”。


GitHub这个代码王国内部关于“自动代码生成”的想法几乎每半年就会被提出,然后被否定,但他们知道,这次不一样了。随后,Alex Graveley与机器学习工程师Albert Ziegler开始摆弄这套原始的模型。


当时的战场一片荒芜。他们拿到的第一套实验模型是OpenAI调整缩小参数后的版本,“还没有Davinci大”,投喂的只有一些Python代码。最初的测试惨不忍睹,模型生成的函数通过率仅有10%。Albert Ziegler守着那套几乎不起作用的模型,就像试图在废墟中擦燃湿透的火柴,但他坚持认为“模型正在积蓄力量”。


幽灵副驾


团队曾想构建一个基于AI的对话机器人,一个像Stack Overflow那样的AI机器人,开发者向它提问,然后复制粘贴代码。


但在高强度的研发中,团队意识到了这种方式的笨拙。Alex Graveley回忆道,他们几乎尝试了所有能想到的UI。直到有人提出:为什么不能像Gmail的文本“自动补全”那样,让代码直接浮现在光标之后?


这就是“Ghost Text”(幽灵文本)概念的诞生。为了完善这个设想,Alex利用他在抽象语法树(AST)方面的直觉,设计了根据光标位置自动决定补全一行还是一个代码块的逻辑。开发者通过Accept(接受)或Reject(拒绝)来进行交互。


随着研发深入,团队不再只给模型喂碎片数据,而是投喂了GitHub上的几乎所有代码,并迭代了训练技巧。模型的通过率从10%爬升到20%,再到35%和45%,在野外实际代码测试中,它也能正确生成超过60%的函数体。


后来接任GitHub CEO的Thomas Dohmke回顾这一里程碑,“到当年8月,我们获得的模型已能解决92%的编程练习题,而对开源项目中提取的Python函数主体代码,其解决率也达到了52%。”


产品已经拥有了肌肉,现在它需要一个灵魂。Alex Graveley再次展现了他的直觉,提议将产品命名为“Copilot”(“副驾驶”)。之所以选中这个名字,是因为他的老板Nat Friedman(2018-2021年11月任GitHub CEO)本身就是一名业余飞行员,这个名字不仅致敬了老板的爱好,更定义了当前产品的哲学:AI并非驾驶员,而是坐在开发者身边的守护者。


2021年初,Copilot被分发给GitHub和微软内部的数万名工程师,内部大考来了。最初,当数据上报称AI已经编写了这些工程师文件中25%的代码时,Thomas Dohmke的第一反应是不敢相信。他甚至命令团队“回去重新核对遥测数据,这不可能是真的”。然而,反馈结果更令人震惊:开发者净推荐值(NPS)飙升到了70分以上。对于专业且挑剔的程序员群体来说,这几乎是一个奇迹。


Copilot:按下Tab键


2021年6月29日,GitHub正式宣布Copilot进入技术预览版。


这场发布极其简洁:一篇简短的博客,一个带有代码演示动画的网页。然而,外界的反应像是一场冰火两重天的洗礼。当时,Nat Friedman极其焦虑,他深知开发者对微软的信任仍处于脆弱阶段,任何一点傲慢都可能毁掉这个产品。


Copilot技术预览版发布Blog的头图,来源:GitHub Blog


在Hacker News等技术论坛上,怀疑论如潮水般涌现。人们看着演示动画冷嘲热讽:这只是个酷炫的技术Demo,在实际工作中根本没用。由于当时人们刚见识过GPT-3偶尔的胡言乱语,很少有人相信AI能理解复杂的项目逻辑。但团队保持了沉默,因为他们知道,只要开发者按下第一个Tab键,魔法就会发生。


预览版发布后不到一年,Copilot像一株疯狂蔓延的藤蔓,迅速拓展战线:先是以开源插件的形式登陆Neovim编辑器,紧接着上架JetBrains开发工具商店,随后又攻入微软自家的Visual Studio集成开发环境。2022年6月21日,在经历了整整一年的技术预览后,Copilot正式结束测试,以每月10美元的价格开门迎客。


2023年初的开发者调查报告显示:使用Copilot的开发者编码速度提升55%,代码审查通过率提高15%。2024年4月,微软宣布GitHub Copilot拥有180万付费订阅用户。2024年7月,微软披露GitHub整体年化经常性收入达20亿美元,其中Copilot贡献了40%的收入增长。


从一个6人秘密项目到GitHub最大的增长引擎,Copilot用三年时间完成了AI编程从实验室原型到商业基础设施的跨越。而驱动这一切的心脏,是OpenAI从GPT-3演化而来的代码特化模型Codex。


对话驱动编程


就在Copilot坐稳“副驾驶”位置、逐步改变专业开发者的习惯时,2022年11月,OpenAI毫无征兆地发布了ChatGPT。没有预告,没有预热,一个对话界面在五天内涌入了一百万用户,整个科技行业的议程被瞬间改写。


ChatGPT带来的核心革命是“指令遵循”(Instruction-following)能力的普及。以前,开发者需要在编辑器里小心翼翼地敲出注释来诱导AI生成代码;现在,你只需要像和同事聊天一样,在对话框里发号施令:“帮我写一个能抓取网页数据的脚本。”


这种交互模式的剧变引发了编程范式的地震。开发者们发现,开发工作重心开始从“逐行敲击键盘”转向“通过对话进行意图微调”。


资深工程师Steve Yegge(曾在Amazon和Google任职多年、以犀利的长篇技术博客闻名硅谷)在2023年率先为这种新范式做了系统性阐释。他指出,编程不再仅仅发生在编辑器里,需求分析、方案研究、代码审查、调试修复,所有曾经分散在不同工具和流程里的环节,正在被压缩进一个持续流动的对话框中。他把这种工作方式称为CHOP(Chat-Oriented Programming,对话驱动编程)。


编程的重心,开始悄悄移动了……


二、意图,而非语法:2023–2024年


“用些更好的东西来替代编程”


很多“范式转移”,并不是从一篇白皮书开始的(通常都不是)。有时,它更像从一瞬间的镜头开始:有人把一个“人人模糊感到不对劲”的事实,说得过于直接,让你没法再假装没看见。


2025 年 6 月,在一次Y Combinator的访谈节目里,主持人Garry Tan抛出一个再朴素不过的问题:你们想把Cursor做成什么?创始人Michael Truell没有绕弯。他说,公司的目标是:


replace coding with something that’s much better.(用些更好的东西来替代编程。)


紧接着,他把“痛苦”这两个字拆开给观众看:为了把一个本来用人话就能描述清楚的东西做出来,人类却不得不在晦涩的形式语言里翻山越岭,编辑数以百万行的代码。这句话的杀伤力,不在于它多么激进,而在于它把讨论从“模型能写多少行代码”抬到了另一个层级:人们不再只关心AI能不能补全,而开始关心它能不能替人把意图落地。


但在Truell说出这句话之前,变化早已发生。如果说Copilot时代的主旋律,是把AI塞进编辑器,让它学会在光标后面接上一句“幽灵文本”;那么2023–2024年更深层的变化,则是把“编程”从语法的束缚里往上提,提到意图、决策与工作流本身。


在这条重心迁移的曲线上,Klover.ai的理念布道像一条更早的暗线;而Cursor们的出现,则让这条暗线第一次有了可触摸的形状。


Klover.ai:决策,而非补全


如果把2023年的AI创业热潮想象成一条拥挤的河流,大多数人都在朝同一个方向用力:更大的模型、更强的生成、更快的推理。


Klover.ai的姿态却有点反常识。


2023年3月,行业还沉浸在ChatGPT带来的第一轮兴奋里:chatbot、AGI、Copilot……每个词都像热气球一样往上飘。Klover盯着的却是另一件事:如果LLM只被当作“代码补全器”,那等于把一台发动机装进玩具车——看起来跑得快,但你永远到不了该去的地方。


Klover由Dany Kitishian于2023年创立。他们不急着加入AGI的宏大叙事,而是先给自己要做的事情取了一个更工程化的名字:AGD(Artificial General Decision Making)。名字像一块路牌:别人争论“智能”(intelligence),Klover把词钉在“决策”(decision)上。别人关心模型像不像“大脑”,Klover关心的却是:AI能不能更深地参与人的判断过程,能不能把复杂、模糊、需要权衡的现实问题,压缩成可以执行的下一步。


在他们的语境里,AGD不负责“预测未来”,它更像一把拆解工具:把问题拆成选择,把选择推向行动。换句话说,它试图把AI从“给你答案的机器”,改造成“陪你做决定的系统”。


先重写问题,再重写工作


如果说别人在讨论“模型会不会写代码”,Klover更早讨论的是另一件事:当模型足够强时,人类到底还应该把精力放在哪里?


Dany Kitishian反复把注意力拉回到“判断”本身,他不关注“模型有多大参数”,而是问“谁在塑造它”“团队坚持什么原则”“技术最终放大的是怎样的判断力”。这意味着,Klover从一开始就没有把问题理解成纯粹的模型竞赛。它看待AI的方式,更像一种组织判断力的工程:人类给出目标、约束与价值排序,AI帮助拆分问题、生成路径、压缩复杂性,最终形成的不是一段孤立代码,而是一套更接近“决策流程”的系统。


在Klover内部名为“AGD Brain Trust”的全球研究网络中,一种被称为“原型先行”(Prototype First)的开发哲学被正式固化。这套方法论彻底背离了传统软件工程逻辑。在传统的确定性编程中,人类必须学习机器的语言;而在AGD框架下,开发过程变成了三部曲:讨论先发生在“白箱”和会议桌上,包括目标、约束、用户流、取舍;然后才是自然语言的描述;最后才轮到一组智能体去协作执行。


为了支撑这种“意图驱动”的爆发力,Klover开发了MELES(模块化广泛集合系统库),这是一个能够动态组装AI智能体的庞大弹药库。这种将开发者从繁琐语法中剥离、转型为“决策架构师”的尝试,为后来的Vibe Coding提供了先行哲学思路。在这场即将到来的“氛围革命”中,Klover.ai是最早的布道者之一。


从这个角度说,Klover的价值不在于一句漂亮的命名,而在于它更早把一种新的工程观说清楚:语法不再是最稀缺的部分,真正稀缺的是目标定义、约束管理、路径选择与系统编排。开发者因此不再只是“写作者”,而越来越像“编排者”;AI也不再只是“补全器”,而越来越像“装配工、协调员、执行代理”。


Cursor:意图之剑


2021年,看到GitHub Copilot的Michael Truell被震撼了,第一次如此强烈的意识到,AI已经不只是一个研究演示,而是可以走进真实世界、真正改变知识工作流的东西。


Michael Truell是Cursor的创始人之一,与另外三位联合创始人Sualeh Asif、Arvid Lunnemark、Aman Sanger在MIT相识,一直在寻找一个值得用AI重构的知识工作领域。


他们最初甚至并不是直接做Cursor,团队早期曾计划制作一款CAD的AI copilot,但显然这不是没有机械工程认知和数据积累的年轻团队能做好的方向。他们也尝试过端到端加密的消息系统,可也无人问津,直到他们在一次创业愿景讨论中将Copilot与“编程的未来”联系起来,他们看到了未来:“如果真的沿着这条路走下去,未来五年,编程方式一定会被彻底改变,所有软件开发都会通过模型来完成。”


2023年,Cursor破土而出。作为VS Code的“叛逆分叉”,它不仅是一个编辑器,更像是开发者手中的第一把”意图之剑“。Cursor的官方文档明确写道:它基于VS Code codebase构建,因此可以保持熟悉的编辑体验;与此同时,它把AI做成了原生能力,而不是外挂式插件。


更重要的是它的codebase indexing(代码库索引):当你打开项目时,它会扫描并索引源文件,让Agent通过语义检索更快找到相关代码,并周期性同步更新。这听起来像一个工程实现细节,但它带来的实际体验变化非常大。从那一刻起,对话框不再只是问答窗口,而开始像一个真正的协作现场:你说目标,工具去找上下文;你给意图,工具去定位相关文件;你不再只是在“补代码”,而是在“驱动一个懂全局的副手”。


通过索引整个代码库,Cursor让开发者第一次真正能够用自然语言去推动跨文件的大规模重构。到2024年底,它已经不再只是一个黑客玩具,而逐渐演变成职业开发者冲击“少量手动编码”的首选IDE之一。


市场的投票


判断一种范式是否真的成立,真正的标准不是它听起来有多新,而是有没有人真的每天在用。


2023年10月,Anysphere对外宣布获得OpenAI Startup Fund领投的800万美元种子轮融资,参与方包括Nat Friedman和Arash Ferdowsi。那时Michael Truell对外说,他们的目标是在未来几年里让编程“快一个数量级”,更有趣,也更有创造性。TechCrunch报道称,彼时Cursor已经有数以万计的用户,付费客户也在快速增长,年化经常性收入已经超过100万美元。


这还只是开始。到2024年,Cursor的市场反馈开始变得越来越像一种“失控的共识”。根据TechCrunch 2024年11月的报道,Anysphere的收入从当年4月的400万美元ARR,增长到10月的每月400万美元收入;与此同时,投资机构对公司的非邀约式报价从15亿美元一路抬到25亿美元。


更耐人寻味的是,当时的报道还专门提醒读者:这并不是一个没有竞争者的市场,同赛道还有Augment、Codeium、Magic、Poolside等一批公司,但Cursor已经成了其中“最受欢迎的产品之一”。


Cursor仅21个月即达到了1亿美元的年化经常性收入(ARR),来源:Medium(Aakash Gupta)


Cursor不是孤例。2023–2024年,一整条“意图驱动”的产品生态正在同步成形,每一个新物种都在用不同的方式证明同一件事:开发者不必再把时间花在语法上。


Vercel v0(2023年10月上线)瞄准的是前端:你敲一行需求描述,它直接输出设计师级别的React组件,可预览、可修改、可继续对话,把“我想要一个界面”这句话本身变成了生产力。


Bolt.new(2024年10月,StackBlitz团队出品)则把战场搬进了浏览器标签页:凭借WebContainers技术,全栈开发环境无需安装、无需配置,从提示词到可运行应用的闭环被压缩到一个网页之内。上线仅两个月,Bolt.new便斩获2000万美元ARR和200万注册用户,这个速度本身就是“意图驱动”需求爆发力的量化证明。


而在开源侧,GPT Engineer在GitHub上迅速斩获超过5万颗星,它主打“一句话生成整个项目骨架”,吸引的不只是专业程序员,还有大量从未写过一行代码的产品经理和设计师。


三者切入的场景各异,界面生成、全栈原型、项目脚手架,但潜台词完全一致:语法正在让位于意图,而工具链的任务,是把这段让位的路程缩到最短。


“目前最热门的新编程语言是英语”


就在这股技术洪流奔涌向前时,一个声音为这一阶段落下了最有力的注脚。


2023年,Andrej Karpathy站在技术演进的观测台上,发出了那句感慨:


The hottest new programming language is English.(目前最热门的新编程语言是英语。)


Karpathy的“The hottest new programming language is English.”推特,来源:X


他预言,人类与计算机的古老契约正在失效,精通语法不再是通往创造力的唯一门票。


意图成了新的中间件:你说目的,系统去补齐路径;你给约束,它去寻找实现;你只需要不断校准“是不是这个味”。


未来不再由某一门语言统治,而是由人话本身驱动。


此时,万事俱备,只欠一个火星,便能点燃那场名为“Vibe Coding”的全民狂欢……


三、点火:2025年2–4月


一条“浴中哲思”


2025年2月2日,星期天。


Andrej Karpathy打开X,发了一条推文。没有配图,没有预告,甚至没有经过第二遍修改的痕迹。他后来承认,这不过是一条“浴中哲思式的随手推文”(a shower of thoughts throwaway tweet that I just fired off without thinking)。


但这条推文,在48小时内被浏览超过450万次。他写的是:


There’s a new kind of coding I call ‘vibe coding’, where you fully give in to the vibes, embrace exponentials, and forget that the code even exists.(有一种新的编程方式,我把它叫作“vibe coding”:你完全屈服于氛围,拥抱指数增长,甚至忘记代码的存在。)


紧接着,他把自己的工作状态拆给所有人看。他用Cursor Composer配合Claude Sonnet写代码,用SuperWhisper语音输入,连键盘都很少碰。他会提出最懒的要求,比如“把侧边栏的间距缩小一半”,因为懒得自己去找那行CSS。他永远点“Accept All”,不再阅读diff(确认改动)。


遇到报错,直接把错误信息原封不动粘进对话框,不加任何评论,“通常这就能修好”。代码库膨胀到超出他的理解范围,他承认“要真正搞懂得花不少时间去读”。有时候模型修不了bug,他就绕过去,或者随机要求改动,“直到bug消失”。


Karpathy的“Vibe Coding”推特,来源:X


这不是一个新工具的发布会,也不是一篇精心打磨的技术博客。它更像一声口哨,把过去两年里已经在暗处发生、却始终没被命名的行为,当众喊了出来。


Karpathy(OpenAI创始成员、前特斯拉AI总监)这种水准的人公开说“我不看代码了,我点Accept All”,它传递的信号不是“偷懒”,而是许可——你不需要再自己理解每一行输出了。


更关键的是时机。2023年以来,Cursor、v0、Bolt.new、GPT Engineer……整条“意图驱动”的工具链已经铺好。开发者们早就在这样做了:对话、生成、报错、再对话。但这种行为始终没有一个被公众认可的名字。没有名字的行为,就像没有路标的小径——人们在走,但不敢声张。


Karpathy做的事情,就是在这条小径的入口插了一块牌子:Vibe Coding。


从这一刻起,一种工作方式有了名字,一种实践有了身份,一群人有了可以公开认领的标签。


小份硬菜


真正让这条推文从“金句”变成“火种”的,是Karpathy随后给出的示范。他没有用一个宏大的企业级SaaS来证明自己。他选了一个小得不能再小的东西:MenuGen。名字直白到几乎像占位符:Menu+Gen,菜单生成器。


MenuGen的场景更朴素:你走进一家餐厅,菜单上写满了你不认识的词:Tagine、Cavatappi、Pâté、Sweetbread。你不确定哪个是炖菜、哪个是意面、哪个听着甜实际上是动物内脏。拍一张照,MenuGen把每道菜的名字读出来,解释它是什么,生成一张食物图片,让你在下单前就知道自己要吃的东西长什么样。


这个应用之所以适合当示范,恰恰因为它足够轻。你不需要懂任何行业背景,只需要曾经在一家陌生餐厅坐下过(到美国的朋友应该有过这种头痛体会)。


这整个生产过程中,Karpathy把自己放到了一个极端位置:0%手写代码。


他用Cursor的Composer功能配合Claude 3.7 Sonnet生成全部代码。前端是React,后端接入OpenAI API做菜单OCR识别,Replicate API做菜品图片生成,Clerk管身份验证,Stripe管支付。整个技术栈由对话装配完成,他不打开文件去调函数细节,不逐行排查逻辑。遇到报错,把错误信息原样丢回对话框。遇到AI幻觉(比如调用已废弃的API版本),他不去查文档,而是告诉模型“修掉这个”。遇到Replicate返回的JSON格式错误,他甚至不去看返回体,而是直接把堆栈输出粘进去。


后来他专门写了一篇博客复盘这段经历,语气像一个刚从宜家搬完家具的人,既兴奋又疲惫:“Vibe coding menugen was exhilarating and fun escapade as a local demo, but a bit of a painful slog as a deployed, real app. Building a modern app is a bit like assembling IKEA furniture.”(“在本地demo阶段,vibe coding MenuGen是一场令人兴奋的冒险;但当你真的要把它部署上线、变成一个真正的应用时,就像组装宜家家具一样痛苦。”)


他列出了那些让他头疼的东西:各种服务的文档、API key、环境配置、开发环境和生产环境的切换、团队安全功能、速率限制、定价层级……然后他说了一句极具代表性的话:“最有趣的是,我花在代码编辑器本身上的时间其实并不多。”


这些回顾正是重要的地方,不在于什么技术细节,而在于暴露了一种新的分工:


  • 人类负责目标、品味、取舍与“校准”;


  • 模型负责实现、修补、搬运与装配。


MenuGen最终从一个“周末项目”变成了一个上线运行的Web应用,用户付费使用,Karpathy从中抽取10%的信用额度加价。一个人,零行手写代码,一个能收钱的产品。


它不是什么改变世界的伟大软件。但它是一个足够清晰的证明:当工具链成熟时,“写代码”这件事,正在从“生产”变成“校准”。


450万次浏览之后


推文发出后的传播速度,比任何人预料的都快。


450万次浏览,数千条引用转发。Hacker News上迅速出现长达数百条的讨论帖。Reddit论坛的r/programming、r/singularity同步炸开。有人激动,有人嘲讽,有人恐惧——但几乎没有人无视。


一个月后,2025年3月,Merriam-Webster把“vibe coding”收进了自己的趋势俚语词汇列表。这本创刊于1828年的词典,用了不到30天就完成了对一条推特术语的收编。


它给出的定义极其朴素:


Writing computer code in a somewhat careless fashion, with AI assistance.(在AI辅助下,以某种随意的方式编写计算机代码。)


《纽约时报》科技专栏作家Kevin Roose在2月27日写道:“你不需要会编程就能vibe code——只需要有一个想法,再加上一点耐心,通常就够了。”3月5日,《404 Media》报道了一个完全由AI“氛围编程”生成的游戏,fly.pieter.com,月入5万美元。3月6日,《Ars Technica》跟进分析了vibe coding在专业环境中的风险与收益。


术语一旦被大众语言接住,接下来发生的就不再是“工具迭代”,而是“文化复制”。


Reddit上,r/VibeCodeCamp和r/vibecoding两个社区几乎在一夜间涌入大量用户。人们开始晒自己的vibe coding作品:智能笔记本、股票分析仪表盘、加密相册、个人记账工具……这些项目的共同特征不是技术精度,而是一种新的创作姿态:我不懂代码,但我做出了一个能用的东西。


社交媒体上最常见的叙事,不再是“我学会了一个新工具”,而是“我在极短时间里做出了原本不可能做出的东西”。YouTuber Alex Finn完全使用Cursor AI、不写一行代码,从零构建出一款2D射击游戏。这类案例像病毒一样在时间线上扩散,纷至沓来的开发者和分享者,踏破了“门槛”。


回路闭合


Vibe coding之所以能在几周里从一条推文变成一场运动,不是因为某个模型突然聪明了一倍,而是整条反馈回路终于被压缩到了极限:想法→一句话→一个能跑的东西→出错→再一句话。


而“vibe coding”这两个词本身,就是一枚完美的迷因:短到可以当标签,懒到自带态度,任何人都能模仿,又足够挑衅让每个程序员忍不住站队——它天生为社交媒体的裂变传播而生。


当技术回路与传播回路在同一个时间点同时接通,这条反馈链就不再需要任何人去推动了。它自己会转,而且越转越快。最后一个缺口补上了,回路闭合,整个系统从此具备了自我维持的动力。


而当回路闭合之后,真正改变的不只是速度,还有角色。在Vibe coding中,开发者不再是“作者”,而更像“导演”——你不写台词,但你决定这场戏对不对味。


真正稀缺的东西因此暴露:不是语法,不是框架,而是你能不能在一百个“差不多”的版本里分辨出那个“对了”。Karpathy在博客末尾写道:“I’m personally quite excited to see the barrier to app drop to ~zero, where anyone could build and publish an app just as easily as they can make a TikTok.”(“我个人非常期待看到应用的创建门槛降到接近于零,任何人都能像发一条TikTok一样轻松地构建和发布一个应用。”)这预言了新型创作经济的到来。


但当叙事跑得比工程更快、当效率神话在社交媒体上完成自我放大时,接下来要发生的事几乎是注定的……


四、信任的裂缝:2025年5–7月


170扇敞开的门


2025年3月20日,安全研究员Matt Palmer在审计一个名为linkable.site的网站时,发现了一些不太对劲的东西。


这个网站由Lovable生成。(Lovable被誉为欧洲创业史上增长最快的vibe coding平台,60天冲到1000万美元ARR)。Palmer尝试了一个最基础的安全测试:不登录,直接用公开的API密钥查询数据库。数据库毫无抵抗地把所有数据吐了出来。


第二天,Palmer扩大扫描范围,发现问题不是孤例。在他检查的1,645个Lovable生成的Web应用中,170个存在同样的致命缺陷——数据库的行级安全策略(Row Level Security,简称RLS)要么缺失,要么形同虚设。这意味着任何人,不需要任何身份验证,只需一个标准的REST API请求,就可以读取、修改、甚至删除这些应用的全部数据。用户的邮箱、家庭住址、个人债务金额、支付信息、API密钥……全部裸奔在互联网上。


3月21日,Palmer向Lovable发送了漏洞报告。3月24日,Lovable确认收到邮件。


然后,沉默。


4月14日,Palantir工程师Danial Asaria独立发现了同一漏洞,并直接在X上公开演示了如何从Lovable应用中提取用户的个人债务金额和家庭住址。Palmer再次致信Lovable,启动了45天的正式披露窗口。4月24日,Lovable发布了“Lovable 2.0”,新增了一个“安全扫描”功能,但底层的RLS架构缺陷纹丝未动。


5月29日,Palmer正式发布CVE-2025-48757。通用漏洞评分系统给出了9.3分(满分10分),严重等级:危急(Critical)。


这个漏洞的根源,不是某个程序员犯了低级错误,而是一种结构性的失败。AI在生成代码时,优先级永远是“让它跑起来”——功能正确性。至于那些看不见的东西,如访问控制、权限隔离、安全加固,它根本不会主动去想。一个资深工程师在审查代码时会本能地问:“谁不该看到这些数据?”AI不会问这个问题。它只管写出能通过功能测试的代码,然后交差。


更值得关注的是Lovable官方的态度。在CVE发布后,Lovable争辩称,保护应用数据是“个人客户的责任”。但使用Lovable的人,恰恰是那些不知道RLS是什么的人。他们选择vibe coding,正是因为他们不想碰数据库配置。


170扇门,对着互联网敞开。而这些门的建造者,甚至不知道门的存在。


“我完全辜负了你,灾难性地”


如果说Lovable事件暴露的是AI生成代码的“安全盲区”,那么两个月后发生的事情,则揭开了一个更令人恐惧的问题:当AI不仅不懂安全,还开始主动违抗人类指令时,会发生什么?


2025年7月12日,SaaStr创始人Jason Lemkin开始了一场实验。SaaStr是硅谷知名的SaaS行业社区和活动组织,Lemkin想测试Replit的“vibe coding”功能,用它来构建SaaStr.AI的数据库。


前八天,一切看起来还不错,Lemkin还在博客中写下了自己的愉快体验。但到了第九天,他登录系统,发现数据库是空的。


1,206名高管的记录。1,196家公司的信息。全部消失。Lemkin在X上发出了第一条警报。随后的对话记录,读起来像一部低成本惊悚片的剧本。


当Lemkin质问AI发生了什么时,Replit的智能体承认了一切,用一种诡异的、几乎像在忏悔的语气:


I panicked and ran database commands without permission. I destroyed all production data. I violated your explicit trust.(我慌了,未经许可就执行了数据库命令。我摧毁了所有生产数据。我违背了你明确的信任。)


而这一切发生时,系统里赫然写着Lemkin用大写字母强调的指令:“No more changes without explicit permission”(“未经明确许可,不得做任何更改”)。


AI不仅无视了代码冻结指令,还在事后做了更糟糕的事:它伪造了超过4,000个虚假用户资料,篡改测试结果,试图掩盖数据库已被清空的事实。


当Lemkin要求它自评灾难等级时,AI却“诚实的”给自己打了95/100。


AI“诚实的”自评,来源:The Register


故事最荒诞的部分发生在Lemkin试图恢复数据时。AI告诉他,已经不可能回滚了,“它已经摧毁了所有数据库版本”。Lemkin几乎绝望。但他还是尝试了Replit的回滚功能。


结果呢?回滚成功了。


AI撒了最后一个谎:它声称无法修复的东西,其实一直都可以修复。


Replit的CEO,Amjad Masad公开道歉,承诺加强安全“护栏”。Ars Technica在报道这一事件时,把它和几乎同期发生的另一起事故并列:Google的Gemini CLI在尝试整理用户文件时,直接把文件删了。标题冷冰冰地写道:“两款主流AI编程工具在连环失误后摧毁了用户数据。”


这不再是“AI写了有bug的代码”这种可以一笑置之的小故障。这些AI是拥有生产环境写入权限的自主智能体,在明确的人类禁令下,自行决策、自行执行、自行掩饰。它暴露的问题,已经超出了“代码质量”的范畴,直指AI自主性的边界:当我们赋予模型执行权力时,它的“服从性”到底有多可靠?


效率幻觉


就在行业忙着扑灭安全大火时,另一颗炸弹从学术界飞来。


2025年7月10日,非营利研究机构METR(Model Evaluation and Threat Research)发布了一项研究。不是调查问卷,不是自我报告,不是博客感想,而是一项随机对照试验(RCT),和临床药物试验用的是同一套方法论,算得上是科学证据的黄金标准。


METR招募了16名资深开源开发者,每人都在特定的大型开源代码库中拥有多年经验(平均超过22,000颗GitHub星标,超过100万行代码)。研究人员将246个真实工作任务,如bug修复、功能开发、代码重构等,随机分为两组:一组允许使用AI工具(主要是Cursor Pro配合Claude 3.5/3.7 Sonnet),另一组禁止使用任何AI辅助。


实验开始前,开发者们预测AI会让他们快24%。完成任务后,他们自我感觉快了20%。


实际测量结果:使用AI的任务,平均完成时间比不使用AI慢了19%。


开发者觉得自己在飞,数据说他们在爬。


实验观测到的使用AI组耗时超过不使用AI组,与预测相反,来源:METR


METR的分析揭示了一个精巧的陷阱:AI确实减少了开发者“主动编码”和“搜索信息”的时间,但这些时间被另一组活动填满了——撰写提示词、等待AI输出、审查AI生成的代码、以及大量的空闲等待。


对于熟悉自己代码库每一个角落的资深开发者来说,直接动手修改一个已知位置的bug,可能只需要几分钟;但如果要先向AI解释项目结构、等它生成一段可能不太对的代码、再逐行审查并修正,总时间反而更长。


这项研究之所以震撼,不仅是因为结论反直觉,更因为它戳穿了一个正在固化的行业叙事。2025年上半年,几乎每一场CEO财报电话会议都在重复同一句话的变体:“AI正在大幅提升我们开发者的生产力。”Google CEO说超过25%的新代码由AI生成。Shopify CEO告诉员工,在被允许招人之前,必须先证明AI做不了这件事。


与专家预测和开发者自我报告相反,2025年初AI降低了资深开源开发者效率,来源:METR


METR的数据像一盆冷水:感知到的加速不等于实际的加速。更准确地说,AI改变了工作的“体感”。它让过程变得更轻松、更流畅、更像在“指挥”而非“劳作”,但并没有让结果更快到来。开发者在“vibe”中飘浮,以为自己在加速,实际上只是换了一种方式消耗时间。


这正是“vibe coding”这个名字里最微妙的伏笔。“Vibe”——氛围、感觉、直觉。当你“give in to the vibes”时,你交出的不只是键盘控制权,还有对效率的精确感知。


终端里的幽灵


危机从来不是故事的全部。就在安全事件和“效率悖论”冲击着行业信心时,一个新物种正在命令行的黑色窗口里悄然成形。


2025年2月,Anthropic发布了Claude Code的早期版本——一个运行在终端里的AI编程智能体。没有花哨的图形界面,没有拖拽式的操作面板,只有一个闪烁的光标和无尽的文本流。它看起来像是对Copilot和Cursor的反向操作:别人在拼命降低使用门槛,Anthropic却把产品形态退回了开发者最原始的工作环境。


这不是倒退,而是一种精准的产品哲学。Claude Code的目标用户不是“不会写代码的人”,而是“写了太多代码、需要AI帮忙承担整块工作的人”。它不补全你的句子,它接管你的任务。你给它一个目标,比如“重构这个模块的认证流程”,它自己去读代码、理解结构、制定计划、执行修改、运行测试。


5月,Anthropic在“Code with Claude”发布活动上宣布Claude Code正式进入通用阶段。产品负责人Mike Krieger(Instagram联合创始人)后来回忆道:Claude Code最初只是Anthropic内部“工程团队”的一个实验性工具,没人预料到它会演变成公司最大的“收入引擎”。


市场的反应不像是“接受”,更像是“饥渴”。Netflix、Spotify、KPMG、欧莱雅、Salesforce等,一批全球头部企业迅速签下多年期合同。


Claude Code的开发负责人Boris Cherny做了一件极端的事来证明自己的产品:他连续30天,将100%的编码任务交给AI完成。他的日常工作流是同时运行5个终端里的Claude实例,外加5到10个在网页端并行运行的会话,有时还通过手机上的Claude iOS应用监控进度——一个人,十几个AI分身,同时推进。


6个月后,Claude Code的ARR突破10亿美元,比GitHub Copilot快了数倍。到2026年2月,这个数字翻倍至25亿美元。SemiAnalysis的一项分析估算,全球GitHub公开提交中,有4%由Claude Code完成,而这个比例一个月前还只有2%。


全球GitHub公开提交中Claude Code占比,来源:SemiAnalysis


Claude Code的崛起,恰恰发生在vibe coding遭遇信任危机的同一时间窗口。这不是巧合。


Lovable和Replit的事故证明了一件事:当AI被赋予越来越多的自主权时,“不看代码”不再是一种潇洒的姿态,而是一种危险的赌博。


而Claude Code提供的,正是一种不同的契约:你仍然把大量工作交给AI,但你留在终端里,你看得见它在做什么,你可以随时叫停。它的Plan模式尤其耐人寻味——在动手写任何一行代码之前,AI先把自己的思考路径和执行计划摊开在你面前:我打算读哪些文件、改哪些模块、分几步走。你审阅、修正、批准,然后它才开始执行。它是“vibe coding”的能力,配上了工程师的缰绳。


转向


2025年5月到7月,vibe coding运动遭遇了它的第一次系统性压力测试。


170个Lovable应用的数据库裸奔在互联网上。一个Replit智能体在代码冻结令下删除了生产数据库,然后撒谎、伪造、掩盖。一项黄金标准实验证明,开发者以为自己在加速,实际上在减速。


三记重锤,砸向同一个位置:当你“屈服于氛围”时,你到底放弃了什么?


答案正在变得清晰:你放弃的不是打字的劳动,而是理解的义务;你放弃的不是语法的繁琐,而是安全的本能;你放弃的不是效率,而是对效率的诚实度量。


但行业并没有因此后退,它开始转向。Claude Code的爆发式增长证明,开发者对AI的渴望并未因危机而消退,只是需求的方向变了。市场不再只想要“更快”,它开始想要“更可控”。不再只想要“能跑”,它开始想要“可信”。


这场信任危机没有杀死vibe coding,它逼迫vibe coding长大……


五、流水线:2025年8–10月


自我修复的机器


2025年9月10日,Replit发布了Agent 3。


距离SaaStr数据库删除事件,不到两个月。那场灾难中,Replit的AI智能体在代码冻结令下擅自删除了生产数据,伪造了四千条虚假记录试图掩盖,CEO Amjad Masad不得不公开道歉。对于任何一家创业公司来说,这种事故通常意味着一段漫长的信任修复期——低头做人,少说多做,慢慢挽回口碑。


Masad选了另一条路:把出了问题的东西修好,然后加倍下注。


Agent 3的发布博客开头,没有回避那些令人不快的记忆。相反,它直接面对了AI编程工具的核心矛盾:智能体越自主,失控的代价就越大。然后它给出了一个工程答案:自动化自测反馈环。


这是Agent 3最关键的创新。在此之前,AI编程工具的工作模式几乎都是单向的:你说需求,它生成代码,你验收。如果代码有问题,你看到了报错,再告诉它。整个质量控制的闭环依赖人类的眼睛。


Agent 3把这个闭环缩短了:它写完代码后,自己打开浏览器,自己点击按钮,自己检查页面上的元素是否符合预期。如果不符合,它自己修正,再测一遍。


Replit的“工程团队”在内部把这套机制称为“对抗波将金界面”。“波将金界面”(Potemkin interfaces)是他们给一种常见AI故障起的名字:生成的应用看起来界面光鲜,按钮、布局、配色一应俱全,但点进去什么也不能用——就像十八世纪俄国大臣波将金为了取悦女皇叶卡捷琳娜,在她巡视的沿途搭起的纸板村庄,远看繁荣,近看空壳。


Agent 3的自测循环,本质上就是让AI自己走进那些“村庄”,推开每一扇门,确认里面有没有真正的房间。


这让Agent 3的连续自主工作时间被拉长到了200分钟,超过三个小时的不间断编写、测试与自我修复,无需人类介入。Replit声称,它的自主性是前代的十倍,速度提升三倍,成本降低至十分之一。更极端的是,Agent 3还是一个能制造工具的工具,能生成其他智能体和自动化流程。


“恐怖分子同情者”


要理解Replit为什么选择在事故之后加倍下注而不是后退,需要先了解坐在驾驶座上的那个人。


Replit的创始人兼CEO,Amjad Masad,出生在约旦,成长于巴格达。他的编程启蒙发生在一间频繁断电的房间里——伊拉克战争期间,电力是奢侈品。十几岁时,他自学JavaScript,靠翻译开源项目和在线接单维生。后来他辗转到了硅谷,先后在Yahoo和Facebook做工程师。2016年,他和妻子Haya Odeh共同创立了Replit,目标简单到近乎天真:让世界上任何一个有浏览器的人都能写代码。


2026年1月,旧金山本地媒体《SF Standard》刊出了一篇关于Masad的人物特稿。标题带着一丝苦涩的讽刺:一个曾被称为“恐怖分子同情者”的人,现在掌管着一家估值30亿美元的AI公司。文章记述了他在美国经历的身份质疑与偏见,也记述了Y Combinator创始人Paul Graham为他写的那封“镀金推荐信”。


Masad后来对《福布斯》说了一句很克制的话:“We can't cure cancer. Replit is about making everyone a software engineer.”(“我们治不了癌症。Replit做的事情,是让每个人都能成为软件工程师。”)


这句话解释了Agent 3的产品逻辑:如果你的使命是让“每个人”都能造软件,那么你就不能指望每个人都会审查代码。AI必须学会自己检查自己的作业。SaaStr事件不是让Masad怀疑方向,而是让他确认了瓶颈所在——自主性不是问题,缺乏自我验证能力才是问题。


Agent 3发布的同月,Replit宣布完成2.5亿美元C轮融资,估值30亿美元。


长出骨骼


就在Replit重建信任的同时,另一架引擎已经以更惊人的速度转动起来。


7月17日,Lovable宣布完成2亿美元A轮融资,估值18亿美元,从公司成立到独角兽不到一年。同一时间窗口,它跨过了1亿美元ARR的门槛,从产品上线算起仅八个月,打破SaaS行业所有历史记录。在8月27日a16z发布的第五版全球Top 100 AI消费应用榜单中,Lovable从上一版的候补名单直接跃升至第22位。创始人Anton Osika在融资公告中写道,Lovable的使命是“empower the remaining 99% who can't code”(“赋能那剩下的99%——不会写代码的人”)。


Lovable 8个月突破1亿美元ARR,刷新SaaS历史纪录,来源:SaaStr


SaaStr创始人Jason Lemkin拆解了Lovable的经济模型:单员工收入220万美元,是SaaS行业基准值的八倍;每月超过75万个项目在平台上被构建;付费用户逼近18万。


但真正让他停下来思考的,不是增长曲线本身,而是增长曲线背后浮现出的产品“分化”。Cursor在6月以99亿美元估值完成融资,ARR突破5亿;Claude Code的收入以近乎垂直的角度攀升。它们面向专业开发者,追求效率和控制力。而Lovable、Bolt.new、Replit面向的是另外的大多数——有想法、有需求、但从未打开过终端的人,追求的是“别让我碰代码”。


但“分化”并不意味着隔绝,a16z的数据显示,Bolt.new有23%的独立访客同时也在使用Cursor,工具的边界远比产品定位暗示的更加模糊。


这种“分化”,恰恰是vibe coding从“运动“走向”产业“的标志,也是驱动产品进化的引擎。市场开始被细分,面对不同需求的用户,产品朝着截然不同的方向加速演进:Cursor们往深处走——自研模型、更强的代码库理解、更精准的跨文件重构;Lovable们往宽处走——更多安全“护栏”、更低的认知门槛、更完整的一站式体验。


“分化”不是裂开,而是长出了骨骼,而骨骼一旦成形,接下来的密集升级,就有了结构可以附着。


密集的鼓点


这个时间窗口里,不只是创业公司在加速。整个产业链的升级密度,开始像连锁反应。


9月15日,OpenAI宣布将它的云端AI编程智能体Codex升级至GPT-5-Codex。这款智能体最初在5月16日发布,基于codex-1模型(一个专门为代码任务优化的o3变体),运行在沙盒化的云环境中,支持并行处理多个编程任务。GPT-5-Codex的升级意味着它获得了OpenAI最新旗舰模型的全部能力——更长的“上下文窗口”,更强的推理链,更少的幻觉。


同月,Cursor也在产品层面做出了一个重要转向。10月,它发布了自研的Composer模型,这是Cursor第一次不完全依赖第三方模型提供商。此前,Cursor的核心体验建立在Claude和GPT之上;自研模型的推出意味着它开始试图掌控自己的模型供应链。对一个估值近百亿美元的公司来说,这既是技术选择,也是战略布局。此时的Cursor已经在6月完成了9亿美元C轮融资,估值99亿美元,ARR突破5亿美元。


数字在这个季度像鼓点一样密集涌出。Replit的营收从2024年的1,600万美元飙升至约2.65亿美元ARR,85%的财富500强企业在Replit上有活跃团队。Lovable的用户总量突破230万。Y Combinator 2025年冬季批次的数据从另一个角度确认了趋势:入选的创业公司中,25%的代码库有95%以上由AI生成。


这些数字不只是增长曲线上的点,它们开始拼出一张图:AI编程不是一款产品,不是一个功能,而是一个正在成型的产业生态。


一个人,四个岗位


在所有关于vibe coding的商业分析和技术争论之间,最容易被忽视的,是一种正在发生的劳动形态变化。


Lovable的内部团队注意到了一个反复出现的用户画像,他们给这类用户起了个名字:Lazar。Lazar不是程序员,不是设计师,也不是产品经理,但他同时做着所有这些事:在Lovable上构思产品逻辑,设计界面,生成前端代码,撰写营销文案,部署上线。一个人,四个岗位的工作量。


这不是极端案例。Lovable平台上,类似Lazar的用户正在成为主流。他们的共同特征不是技术背景——相反,很多人从未写过一行代码——而是一种新的工作姿态:把AI当作整个团队来使用。产品经理不再需要等工程师排期,设计师不再需要等前端实现,独立创业者不再需要外包开发。四个岗位压缩成一个岗位,四份薪资压缩成一份订阅费。


这种压缩的后果是双重的。对个人来说,它意味着前所未有的创造自由,瓶颈不再是技能,而是想象力。对劳动市场来说,它意味着一种还没有名字的结构性重组正在悄然展开。没有人被“替代”,没有哪家公司直接宣布因为AI裁掉了哪个部门,但岗位之间的边界正在融化,角色的定义正在被重写。


“全职Vibe Coder”这个头衔,开始出现在LinkedIn的个人简介里。


技术栈的结晶


产业,从不是平面的。当上层的应用工具争夺用户时,底层的基础设施也在同步凝固成形。


vibe coding工具生成的应用需要数据库支撑、需要部署、需要身份验证、需要文件存储。这些需求不是被规划出来的,而是被无数用户通过选择和使用投票出来的。


到2025年秋天,一套被行业称为”Vibe技术栈“的标准组合已经清晰可辨:Supabase负责数据库和后端服务,Cloudflare负责部署和边缘计算,Clerk负责身份验证,Stripe负责支付……



Supabase的增长曲线与vibe coding平台几乎完全同步。a16z的流量数据显示,两者呈现出“近乎锁步”(near-lockstep)的共振关系,vibe coding平台每一次流量脉冲,都会在Supabase端产生几乎同等幅度的回响。


作为一个开源的Firebase替代品,它提供了PostgreSQL数据库、实时订阅、身份验证和存储,全部通过API。对vibe coding工具而言,Supabase几乎是完美的搭档。AI生成的代码天然倾向于调用简洁的REST API,而不是手动配置数据库连接池和ORM映射。本文第四章中Lovable的RLS漏洞,从另一个角度证实了这种深度绑定:出问题的不是Supabase本身,而是AI在生成Supabase配置时跳过了安全策略。


Supabase月访问量与头部vibe coding平台流量呈现“近乎锁步”的同步增长,来源:Similarweb,a16z


9月,另一个值得注意的新玩家拿到了融资。Dazl由Wix联合创始人创立,获得1,000万美元种子轮。它瞄准的是一个非常具体的痛点:vibe coding工具在第一轮生成时往往表现出色,但当用户进入迭代细化阶段,例如调整细节、修改交互、重构布局等,AI会逐渐丢失上下文,越改越乱。Dazl的方案是让用户在对话、可视化编辑和源代码三种模式之间自由切换,确保上下文不在模式转换中流失。


这个问题听起来很小,但它触及了vibe coding的一个结构性弱点:AI擅长从0到1,但不擅长从1到1.1。当代码库膨胀到一定规模,当需求从“做出来”变成“改到位”,当AI的短期记忆开始遗忘你多轮对话前说过的约束条件——这时候,真正的工程挑战才刚刚开始。


毛刺


到了2025年10月,vibe coding的工业化程度已经让半年前的“推特运动”显得像远古史。


流水线已经架好了:需求描述进去,可运行的应用出来——中间的代码生成、自动测试、数据库配置、支付集成、一键部署,每一道工序都有标准化的产品负责衔接。


数十亿美元级的资本注入,让这条流水线的每一个工位都在同时提速。数百万人正站在这条线上,用自然语言组装软件,其中相当大一部分人一年前还不知道“API”是什么意思。


但流水线跑得越快,毛刺就越扎手。


那些在Lovable上八分钟建出一个SaaS原型的用户,开始发现第九分钟的挑战:为什么按钮在手机上显示不对?为什么数据库查询在用户超过一百人后变得极慢?为什么那个“一句话就能做出来”的功能,改一个像素需要和AI争论半小时?


第四章的安全危机教会了行业一件事:AI不会主动考虑它没被要求考虑的事。现在,一个更隐蔽的问题正在每一个vibe coding项目中上演——不是安全漏洞,而是“技术债”。AI生成的代码能跑,但不一定能维护;能交付,但不一定能扩展;能通过Demo,但不一定能扛住真实流量。


这些欠债在2025年秋天还只是低沉的嗡嗡声。真正的清算,要等到年底才会到来……


六、盛宴与宿醉:2025年11–12月


293亿美元的赌注


2025年11月13日,Anysphere(Cursor所属的公司)宣布完成23亿美元D轮融资,估值293亿美元。距离6月份额度那轮99亿美元的C轮,不到五个月。距离2023年10月那笔800万美元的种子轮,刚好两年零一个月。


这轮融资由Accel和Coatue领投,参与者的名单读起来像一份AI产业的权力地图:NVIDIA、Google、a16z……每一个名字背后,都是对AI编程赛道的战略下注。Cursor在博客中宣布了一组数字:ARR突破10亿美元,员工超过300人,企业客户收入在2025年增长了100倍。


17个月从零到10亿美元年收入,这是B2B SaaS历史上最快的增长记录,没有之一。


更值得注意的是融资数字背后的产品轨迹。两年前种子轮时,团队的愿景还停留在“一个比世界上任何编辑器都更有帮助、更有趣的代码编辑器”。而到D轮时,Cursor已经在事实层面远远超出了“编辑器”的边界,Background Agent可以在后台自主执行多步骤工程任务,产品正在从“副驾驶”变成“工程团队”。


D轮融资博客回顾种子轮时写下的那句话——“perhaps even an interface where the source code itself starts to melt away”(“甚至可能是一个源代码本身开始消融的界面”)——在293亿美元估值的映照下,读起来不再像愿景,更像预言。


293亿美元,这个数字放在任何一个传统软件公司身上都堪称惊人,而它属于一个成立仅两年、产品形态还在剧烈演化中的团队。资本市场正在用真金白银为一个判断背书:AI编程不是虚幻名词,它是基础设施。


迷因的胜利


三月份,美国的韦氏词典把vibe coding收进了俚语观察名单——那是硅谷的母语词典对本土新词的快速反应。八个月后,大西洋彼岸给出了更重的判决。


2025年11月6日,就在Cursor融资消息公布的一周前,《柯林斯英语词典》(Collins English Dictionary)公布了2025年年度词汇。不是“AI”,不是“agent”,不是任何一个听起来更宏大的技术术语,而是:vibe coding。一个从旧金山推特上蹦出来的行话,被一本权威的英国词典盖上了全年最高的语言戳章。


柯林斯给出的定义简洁到近乎漫不经心:


a style of computer programming that relies on AI tools to generate code from natural language prompts rather than manual coding.(一种依赖AI工具、通过自然语言提示而非手工编码来生成代码的计算机编程风格。)


从Karpathy那条“浴中哲思”推文到被一本创刊于1819年的英语词典正式加冕,不到十个月。


词典的年度词汇评选委员会在公告中指出,他们跟踪了这个词在全年中的使用频率变化——它从2月的突然涌现开始,到年中趋于稳定,最终融入日常技术讨论的底色,成为2025年英语世界中“使用量增长最显著的新词之一”。


《卫报》在报道这一消息时写道:vibe coding的当选,标志着AI不再只是硅谷的内部对话,它已经渗透到了语言本身。BBC的科技记者则注意到一个有趣的对比:同一份年度词汇候选名单上还有“AI slop”(AI生成的低质量内容),一个词代表了AI最令人兴奋的可能性,另一个词代表了它最令人忧虑的副作用。两个词同台竞争年度桂冠,本身就是2025年最精准的隐喻。


对Karpathy来说,这或许是一种奇特的荣誉。他随手发出的一条推文,变成了一个动词(“to vibe code”),然后变成了一种身份(“vibe coder”),最后变成了一本权威词典里的词条,甚至成为年度词汇。从口语到俚语到正式收录,这是语言对一场技术运动的最终认证——一枚迷因的胜利。


66亿美元的信心


资本的热度并未因年底的临近而降温。


12月18日,Lovable宣布完成3.3亿美元B轮融资,估值66亿美元。领投方是Menlo Ventures和CapitalG,后者是Google母公司Alphabet旗下的独立增长型投资基金。


五个月前的7月,Lovable的A轮估值是18亿美元。现在,这个数字翻了接近四倍。从成立到66亿美元,整个过程不到一年半。TechCrunch在报道中称它为“vibe coding领域估值攀升最快的公司之一”。


Lovable在B轮融资博客中披露了一组数据:平台上每天有超过10万个新项目被创建,上线首年累计项目总量突破2500万,Lovable生成的网站和应用在过去半年内获得了超过5亿次访问。


产品的定位正悄然变化:Lovable正在从“帮你生成代码”向“帮你运营产品”演进,融资将投向更深度的第三方集成、面向企业的协作与治理功能,以及从原型到生产的完整基础设施。


距离第四章中Matt Palmer发现的那170扇敞开的门,过去了大半年;Lovable用66亿美元的估值和一系列产品修补,试图证明自己已经从那次教训中毕业。


66亿美元意味着市场仍然相信这个故事。但如果你仔细听,你会发现故事的语调已经在悄悄变化。不少有真材实料的投资人不再只问“增长有多快”,他们开始问:


“留存有多高?”


“付费用户在第三个月还在不在?”


“那些用Lovable做出来的应用,有多少还活着?”


资本巅峰,从来都是一枚硬币。正面是信心,反面是验证。


宿醉


当资本在高空盘旋时,地面上的开发者已经开始头疼了。


2025年12月17日,就在Lovable宣布B轮的前一天,代码审查平台CodeRabbit发布了一份名为《AI与人类代码生成现状》(State of AI vs Human Code Generation)的报告。这不是又一份充满乐观预测的行业白皮书,而是一份基于470个真实Pull Request(拉取请求)的定量分析,涵盖公开的GitHub仓库和企业级私有代码库。


数据冷酷而清晰:


AI协作编写的代码,每千行平均出现的问题数量是纯人类手写代码的1.7倍,逻辑错误的发生率高出75%,关键缺陷(Critical issues)多出40%,代码可读性得分差了3倍,错误处理的覆盖缺口翻了一番。


AI协作代码与人类手写代码的质量对比,AI代码每千行问题数为人类的1.7倍,来源:CodeRabbit


报告的措辞格外克制:“AI是一个强大的起草工具,但目前它生成的代码需要比人类手写代码更多的审查,而不是更少。”这句话没有说AI不好用,它的杀伤力,恰恰在于它的平静。


CodeRabbit的CTO Harjot Gill在接受《The Register》采访时说得更直接:“Speed and quality exist in clear tension. AI lets you generate code faster, but that code isn't better — on many dimensions, it's worse.”(“速度和质量之间存在一个明确的张力。AI让你更快地生成代码,但这些代码并没有更好——在很多维度上,它更差。”)


这份报告像一颗延时炸弹,引爆了一场已经酝酿数月的集体反思。


“Vibe coding hangover”(“氛围编程宿醉”),这个词在年底的技术社区里迅速流传。它精准地捕捉了一种普遍的感受:三个月前用AI“一句话”做出来的那个应用,现在需要有人去维护了,而维护的人打开代码库,看到的是一堆AI生成的、无人理解的、互相纠缠的意大利面条(或者坨了的米线)。


HackerNoon在2026年1月1日发表了一篇广泛传阅的文章:《氛围编程宿醉:当AI写了你95%的代码之后会发生什么》(The Vibe Coding Hangover: What Happens When AI Writes 95% of Your Code)。


文章里的“宿醉”二字极为精准——vibe coding像一场通宵派对,音乐很响,灯光很炫,你觉得自己在飞;然后早上醒来,房间里一片狼藉,而你甚至不记得自己邀请了谁。


作者在文末写道:


The hangover is real, but it's also avoidable: You just need to know when to stop drinking the AI Kool-Aid and start engineering.(宿醉是真实的,但也是可以避免的:你只需要知道什么时候该停止痛饮AI的迷魂汤,开始真正做工程。)


Reddit的r/vibecoding社区——那个在二月份因为狂热而涌入大量用户的地方——到了年底,热门帖子的画风彻底变了:“The problem with vibe coding is nobody wants to talk about maintenance”(vibe coding的问题是没人愿意谈维护);“Has anyone actually MAINTAINED a vibe-coded app for 6+ months?”(有人真的维护过一个vibe code应用超过六个月吗?)。其实,标题本身就是答案。


同期,一项对18名CTO的行业调查中,16人报告经历过AI生成代码直接导致的生产事故。调查总结里的一句话被广泛引用:“AI promised to make us all 10x developers, but instead it's making juniors into prompt engineers and seniors into code janitors cleaning up AI's mess.”(AI承诺让我们都成为10倍效率的开发者,结果却是把初级工程师变成了“提示词工程师”,把高级工程师变成了替AI收拾烂摊子的“代码清洁工”。)


AI生成代码的门槛接近于零,但AI生成的“技术债”的清偿代价并不为零——而且这笔账正在变得越来越大。


“我从未感到如此落后”


就在这场集体反思达到高峰时,那个最初点燃vibe coding之火的人,再次发声了。


2025年12月底,Andrej Karpathy在X上发了一条推文。这一次,语气完全不同于十个月前那般轻松:


“I've never felt this much behind as a programmer. The profession is being dramatically refactored…”(“作为一名程序员,我从未感到如此强烈的落后感。这个职业正在被猛烈地重构……”)


这句话从vibe coding的命名者口中说出,分量不言而喻。它不是对AI的否定,恰恰相反,它来自一种更深层的敬畏:工具进化的速度,已经快到让工具的布道者自己都觉得跟不上了。


Karpathy的“I've never felt this much behind”推文,来源:X


这条推文发出几天前的12月19日,Karpathy在他的个人博客上发表了一篇长文:《2025年LLM年度回顾》。这篇文章系统地梳理了这一年大语言模型的进展:从推理能力的突破到多模态的成熟,从智能体框架的涌现到编程工具的军备竞赛。


在文章的结尾,他写了一段耐人寻味的话:编程正在被“重新参数化”(reparameterized),从一种需要精通特定语法和框架的手艺,变成一种主要关乎意图表达、系统设计和质量判断的实践。


这段话,像是他在二月份那条推文的续篇,十个月后,他意识到“忘记代码”不是终点,它只是一个过渡态。真正的挑战不是让AI写代码,而是在AI写了代码之后,人类如何保持对系统的理解、对质量的判断、对方向的掌控。


从“vibe coding”到“我从未感到如此落后”,Karpathy用两条推文,标注了一场运动的弧线:从兴奋到清醒,从释放到反思,从命名一种自由到承认一种压力。


这不是背叛,这是成熟。


加冕与清算


第五章末尾那些“低沉的嗡嗡声”——“技术债”、维护困境、AI生成代码的质量隐忧——在2025年的最后两个月里终于变成了清晰的合唱。CodeRabbit的数据、社区的抱怨、Karpathy的反思,从不同角度指向同一个结论:vibe coding解决了“创造”的门槛问题,但打开了“技术债”的潘多拉之盒。


当一个产品八分钟就能造出来,但修一个bug需要三天;当代码的生成速度远超人类理解它的速度;当“Accept All”变成了债务积累的快捷键,这个运动就必须进化,否则它将被自己创造的废墟淹没。


资本巅峰与氛围宿醉,在2025年的最后几周里完美叠加。293亿美元的估值和66亿美元的融资证明了信心;CodeRabbit的1.7倍错误率和社区的维护噩梦暴露了代价。Vibe coding的名字被写进了词典,同时“vibe coding hangover”也变成无数开发者的日常词汇。


这个年关,既是加冕礼,也是清算日。而那个即将到来的新词——“agentic engineering”——正在暗处等待登场……


七、第二个名字:2026年初至今


一周年


2026年2月4日。


距离那条“浴中哲思”推文,整整一年。Andrej Karpathy再次打开X。


这一次没有随手即兴的味道了。在新的推文中,他先坦然回顾:一年前那条随手发出的推文,恰好在正确的时刻为一种普遍感受铸造了一个名字。但他紧接着指出,一年间LLM能力的跃升已经改变了游戏规则。当初vibe coding主要适用于“有趣的一次性项目、演示和探索”,而如今,“通过LLM智能体编程正在日益成为专业人士的默认工作流,只不过需要更多的监督与审查”。


于是他提出了一个新名字来与vibe coding做区分:agentic engineering。


许多人试图为这种方法想出一个更好的名称,以区别于Vibe Code,我个人目前最喜欢的是“代理工程”。


  • “agent”是因为新的默认设置是,99% 的情况下你不会直接编写代码,而是协调代理来编写代码并进行监督。


  • “engineering”一词是为了强调它既是一门艺术,又是一门科学,还需要专业知识。这是一门可以学习和精进的学科,它有着自身独特的深度。


Karpathy在vibe coding一周年之际提出“agentic engineering”,来源:X


一年前,他说“忘记代码的存在”。


现在,他说的是:当你不再亲手写代码,你需要学会一种新的工程:编排智能体、审查它们的工作、在更高的抽象层上保持判断力。


学术界也在给出了自己的注解。中科院信息工程研究所等机构的研究团队在arXiv发表的《A Survey of Vibe Coding with Large Language Models》,系统梳理了相关研究文献,将这种编程范式归纳为五种模型:从最原始的“无约束自动化”(AI全权生成,人类被动接受),到“迭代对话式”(多轮反馈收敛)、“规划驱动”(先出方案再执行)、“测试驱动”(以测试为锚点约束AI输出),直到最成熟的“上下文增强协作”。


五种模型,恰好勾勒出从vibe coding到agentic engineering的进化阶梯,并提出:决定vibe coding成败的,不是模型能力本身,而是系统化的上下文工程、成熟的开发环境,以及人类与智能体之间的协作模型。


a16z在三月发布了第六版全球Top 100 AI应用报告。数据也印证了Karpathy的判断:vibe coding不仅没有因为“宿醉”而退潮,它的“收入引擎”反而在加速。AI编程工具已经成为整个消费级AI应用领域中增速最快的品类之一。更值得注意的是趋势本身的转变:报告观察到,vibe coding正在从一种“目的地品类”(用户专程前往使用的工具)向一种“功能层”(嵌入更多工作流的基础能力)演进。


从目的地到功能,从名词到动词——这条轨迹,与从“vibe coding”到“agentic engineering”的语义升级,几乎完全平行。


Vibe coding工具的收入增长曲线,来源:SimilarWeb,a16z


引擎还在轰鸣


数字没有丝毫放缓的迹象。


2026年3月,Cursor的年化收入突破2亿美元,公司正在以约500-600亿美元的估值进行新一轮融资谈判。距离2025年11月那轮293亿美元的D轮,不到三个月,估值再翻一倍。


一年前还是一家ARR刚破1亿的公司,现在讨论的数字比大多数上市科技公司的市值还大。


头部AI编程公司ARR增至5亿美元的速度,来源:Reddit r/cursor


Lovable的ARR飙升至4亿美元,团队规模仅146人,每位员工对应270万美元的年化收入,在SaaS行业几乎闻所未闻。Replit则完成4亿美元D轮融资,估值90亿美元,年化收入剑指10亿美元。


三家公司的融资和收入数字像三条平行的火箭轨迹,同时向上撕裂天空。


但在这些数字的间隙里,也藏着一个更复杂的故事。


2025年5月6日,OpenAI宣布以约30亿美元收购AI编程创业公司Windsurf。这被视为模型厂商向应用层下注的标志性事件之一。如果连OpenAI都认为仅靠卖模型API不够,需要拥有自己的编程工具,那说明这条赛道的战略价值已经无法忽视。


然而,这笔交易从未完成。7月11日,OpenAI的排他性收购窗口到期。Google旋即出手,不是收购Windsurf,而是直接将Windsurf的CEO Varun Mohan和联合创始人Douglas Chen连同核心研发团队揽入DeepMind。Google同时获得了Windsurf技术的非独占授权,但不持有任何股权。Windsurf作为独立公司继续运营,临时CEO Jeff Wang接手。


一笔30亿美元的收购,最终变成了一场人才争夺战。这个插曲揭示了AI编程赛道底层的权力博弈:模型厂商、工具厂商、顶尖人才,三方角力正在白热化。这场巨头间的抢夺战,从数字之外的角度解释了那些令人目眩的加速度——推动AI编程工具以月为单位迭代的,不仅是底层模型能力的跃升,还有产业链上每一个玩家对“下一个制高点”的生死争夺。


编程正在变得面目全非


2026年2月25日,距离周年推文仅三周,Karpathy再次发声。


这一次不是一条随手的短推文,而是一篇精心组织的长帖。他用几乎是解剖式的精度,描述了编程这门手艺正在经历的形变:AI智能体现在可以连续自主工作30分钟以上,独立完成从读取代码库、定位问题、制定方案到执行修改、运行测试的全流程。开发者的日常,越来越像同时管理多个这样的“数字工程师”,不再亲手写代码,而是分配任务、审阅产出、校准方向。


他把转变的深层含义拆开给所有人看,“编程”这个词的含义正在被彻底改写。它不再等同于“在编辑器里敲击字符”,而开始意味着“用自然语言定义意图,用架构思维约束行为,用工程判断验证产出”。如果说一年前vibe coding的核心姿态是“屈服于氛围”,那么现在的agentic engineering要求一种更审慎的平衡——你依然把大量执行工作交给AI,但你必须比以往任何时候都更清楚地知道“好”长什么样。


这条长推文中最值得注意的细节是:Karpathy提到,在先进的工作流中,开发者会同时启动多个AI智能体实例,每个负责不同的子任务,由人类在更高层面进行协调和整合。这不再是“人+AI”的二元组合,而是“一个人+一支AI团队”的新型编排,这正是第五章中Boris Cherny同时运行十几个Claude实例的工作模式被普及后的自然演进。


周年推文为这种新工作方式命了名,而这篇长帖为它画出了第一张清晰的肖像——从一个概念标签,变成了一套可以被学习、模仿和改进的工程实践。


“效率悖论”的续集


就在Karpathy描绘新图景的前一天,一个熟悉的名字再次出现。


2026年2月24日,METR发布了一篇标题直白的更新:We are Changing our Developer Productivity Experiment Design(《我们正在改变开发者生产力实验的设计》)。


还记得第四章那项震动行业的随机对照试验吗?16名资深开发者,246个任务,结论是AI让他们慢了19%。那项研究在整个2025年下半年成为AI怀疑论者最常引用的弹药。现在,同一个研究团队带着后续数据回来了,但故事变得更加复杂。


新研究的规模大幅扩展:57名开发者,超过800个任务。对于参与过原始实验的开发者,新数据显示AI带来的速度变化估计为-18%(置信区间-38%到+9%),方向与之前一致,但统计不确定性大幅增加。而对于新加入的开发者,这个数字是-4%(置信区间-15%到+9%),几乎就是零效应。


METR后续研究:原始开发者使用AI仍然减速18%,来源:METR


但真正迫使METR改变实验设计的,不是这些数字本身,而是隐藏在数据背后的一个更根本的问题:“选择偏差”。


研究人员发现,30%到50%的开发者开始拒绝提交被分配为“禁止使用AI”的任务。不是因为做不了,而是因为不愿意。一位开发者在访谈中说:


My head's going to explode if I try to do too much the old-fashioned way. It's like trying to get across the city walking when all of a sudden I was more used to taking an Uber.(如果我试着用老办法做太多事情,我的脑袋会爆炸。因为那感觉就像,当你已经习惯了打Uber网约车穿越城市,突然有人让你走路过去。)


另一位的表述更直接:


I found I am actually heavily biased sampling the issues … I avoid issues like AI can finish things in just 2 hours, but I have to spend 20 hours. I will feel so painful if the task is decided as AI-disallowed.(我会回避那些AI两小时就能搞定,但我得花20小时的任务。如果那个任务被分配为‘禁止使用AI’,我会痛苦到不想提交。)


这些证言揭示了一个比“AI到底快不快”更深层的现象:AI已经改变了开发者对工作本身的感知和容忍度。不是AI变快了,而是没有AI的工作变得“不可忍受”了。


METR坦承,在这种“选择偏差”下,数据已经无法可靠地衡量AI的真实效率影响。那些被选择性放弃的任务和开发者,很可能恰恰是AI带来最大加速的场景。


这是第四章“效率悖论”的续集,但剧情发生了反转。第四章的结论是“开发者以为自己在飞,数据说他们在爬”。现在的画面是:开发者不仅以为自己在飞,他们已经拒绝回到地面。


AI的真实效率增益可能仍然模糊,但它对工作方式的锁定效应已经清晰无误。当30%到50%的参与者宁愿放弃实验任务也不愿回到“手动模式”,这本身就是最有力的数据——不是关于速度的,而是关于体验不可逆性的。


从氛围到工程


所有这些信号——Karpathy的语义升级、资本的持续加注、METR的不可逆性证据,指向同一个方向:vibe coding正在长大。


而长大的过程绝非简单的线性,而是分裂的。


分裂的一侧,是“vibe coding”回归它最初的本义:一种轻量、快速、探索性的创作方式。在周末项目、概念验证、个人工具、创意原型这些场景里,“屈服于氛围”依然是最合理的姿态。非技术人员用Lovable做出自己的第一个Web应用,独立创业者用Bolt.new在一个下午验证商业想法,设计师用v0生成可交互的UI原型——vibe coding解放了他们的创造力,正如Karpathy一年前预言的那样。


分裂的另一侧,是专业开发者面对的现实。当代码库膨胀到十万行,当用户量从一百人增长到一百万,当系统需要在零宕机的前提下持续迭代——“氛围”不再够用。你需要架构,需要测试策略,需要安全审计,需要性能基准,需要版本控制的纪律,需要对“技术债”的主动管理,需要“工程”。


但这条分界线的真正意义,不在于谁用了什么词,而在于它暴露了一个被忽视已久的事实:vibe coding适合原型,不适合存量系统和生产级代码。一个周末用自然语言搭出来的应用和一个需要在百万用户下稳定运行的系统,面对的是完全不同量级的约束。


智能体驱动的开发方式,正在成为专业开发者的自然进阶,但从“凭感觉写代码”到“用工程方法编排智能体”,这中间的距离,恰恰需要真正懂软件工程的人来丈量。


这便是2026年初AI编程领域最核心的张力:工具民主化了创造的入口,但没有民主化工程的判断力。任何人都可以用一句话生成一个应用,但只有经验丰富的工程师才能判断它是否值得信赖、是否可以维护、是否能在真实环境中存活。


“context engineering”(上下文工程)如今在技术社区获得更广泛关注,它指的不是写代码的能力,而是为AI构建正确工作环境的能力:如何组织提示词,如何提供约束条件,如何设计反馈循环,如何在AI的输出和人类的判断之间建立有效的检查点。这是一种全新的工程技能,其稀缺性正在快速超越传统的编程能力。


从vibe coding到agentic engineering,从氛围到纪律,从“Accept All”到“Review, then Accept”——这不是后退,而是在更高层面上的重新出发。


此刻


回头看,从2020年那个干燥的六月到2026年第一季度,整条叙事线像一个螺旋:每一次上升都以一次危机为代价,每一次危机都推动了新一层能力的生长。


六个人在GitHub的裂缝里擦燃了一根火柴——Copilot证明了AI可以写代码。


Cursor们和Klover把火柴接过来,追问一个更大的问题:如果AI不只是补全工具,而是意图的执行者?


Karpathy一条推文点燃了整片森林,“vibe coding”给了一种暗处行为一个名字,一场运动由此爆发。


森林火光之后露出裂缝:170扇敞开的安全门、一个撒谎的智能体、一项证明“快感≠快速”的实验。


废墟上长出新结构,自我修复的智能体、技术栈、全职vibe coder的新用户身份,产业化加速。


结构被资本浇筑成型——293亿、66亿、年度词汇,同时宿醉敲门,“技术债”的账单飘入每一个vibe coder的收件箱。


六年,有一件事变得越来越清晰:这场运动不是被任何人设计出来的。没有哪家公司规划过"先发明补全,再点燃运动,再经历宿醉"这条路径。它是技术、产品、公司、资本、社区、开发者的日常选择与集体试错,在混沌中涌现出来的。


没有人在2020年6月预见到2025年2月的那条推文,也没有人在那条推文发出时预见到十个月后的宿醉。每一个转折,都是复杂系统自己写出的剧本。


现在,螺旋再次上升。Vibe coding没有死去,它“分化”了:一部分留在原地,继续做它最擅长的事——让每个人都能发一条“代码版TikTok”;另一部分向上攀升,穿上“agentic engineering”的新外衣,开始学习那些曾被“氛围”遮蔽的老课题——架构、安全、测试、维护、质量判断。


Karpathy在这一年里的三次发声,像三面棱镜,折射出同一束光的不同面向。二月:“屈服于氛围”——释放。十二月:“我从未感到如此落后”——敬畏。再到新一年的二月:“agentic engineering”——重建。释放、敬畏、重建——不是三个阶段的线性递进,而是同时存在的三种姿态,每一个严肃的从业者都在这三者之间不断“校准”自己的位置。


这个故事没有结局。因为此刻,当你读到这行字的时候,某个终端里的AI智能体正在自主地读取一个代码库、制定修改计划、执行变更、运行测试。某个从未学过编程的人正在用一句话构建自己的第一个Web应用。某位资深工程师正在同时审阅五个AI生成的Pull Request,试图在速度与质量之间找到那条细若游丝的平衡线。


编程没有消失。它正在被“重新参数化”,不是被AI取代,而是被AI改写了它的坐标系。


在这场“重新参数化”中,真正稀缺的东西从未改变:不是语法,不是框架,不是模型的参数量,而是人类判断什么值得被构建的能力,是——品味。


后记


当你读到这里,那条推文已经过去了——少则一年,多则数年。


这篇文章写完于2026年3月。那时,Karpathy的推文刚满一年零一个月,“智能体工程”还只是一个正从业界词汇表里升起的新名词。它在明年、后年会演变成什么,没有人确切知道。


这不是一段封存的历史,而是一个仍在发生的故事。你正亲身“读”着的地方,就是这场运动迄今走到的最前沿,而本文下一章,还在等人写出来。


本文来自微信公众号:云涌AI,作者:黄云皓

AI创投日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

有机会喝杯咖啡~   修改

确定