硅谷两位背景迥异的AI天才乔治·霍兹与安德烈·卡帕西因AI编程公开争论，直指当下AI Agent编程的风险与价值，核心提醒产业需警惕技术泡沫与隐性技术债务。 ## 1. 两个立场对立的AI代表人物霍兹是自学成才的黑客，一生以拆解、破解封闭系统为核心方法论，长期站在商业与技术体制之外，不信任大模型Agent编程；卡帕西是AI正统学术路线出身，曾任OpenAI联合创始人、特斯拉AI负责人，提出「氛围编程」概念，现在Anthropic支持AI Agent重构软件工程。两人都深度接触AI，经历了方向相反的观点翻转：霍兹深度试用后得出AI编程会堆出大量隐蔽垃圾代码的结论，卡帕西原本唱衰AI Agent，亲测任务被高效完成后转为支持。 ## 2. 现有数据已暴露AI编程的真实隐患 - 非营利研究机构METR的随机对照实验显示：有经验开发者用AI完成任务实际变慢19%，但开发者普遍误以为自己变快了，工具使用率已经开始遮蔽真实产出。 - 代码分析公司GitClear分析超2亿行代码变更发现：2024年AI生成的复制粘贴代码占比首次超过重构复用代码，两周内推翻重写的代码比例较数年前翻倍，开发者越来越少整理优化代码，重复代码成为bug温床。 - Uber管理层公开承认：AI token消耗大幅增加，但并未带来交付价值的同比例提升，已提前花完2026年的Claude Code预算。 ## 3. 核心矛盾：生成速度≠工程能力 AI擅长按既有代码的分布生成语法规范、测试通过的代码，但并不理解人类工程师做权衡、划边界、承担后果的过程。现在很多企业将AI使用率当成组织进步指标，扭曲了激励机制：可量化的表面产出被放大，真实的技术债务和未来维护成本被掩盖，AI坏代码因看起来合格更具隐蔽性。这也是霍兹警告「AI Agent编程会是软件开发史上最昂贵错误之一」的核心原因。 ## 4. 产业面临的两难处境若霍兹的判断成立，编程作为当前大模型最值钱的应用场景，整个AI行业估值会瞬间失血，而已经习惯AI编程的从业者和组织也无法回到旧开发模式。若卡帕西的判断成立，海量隐蔽性不合格代码会被持续注入关键基础设施系统，最终可能以突发大灾难的形式一次性结算代价。目前工具确实在持续进化，但技术进步不会自动带来组织工程纪律的进步，行业尚未建立成熟的风险刹车机制。

2026-06-04 19:47

两个硅谷天才吵起来了：AI编程引发现实大灾难？

胡说成理

本文来自微信公众号：胡说成理，作者：胡喆，题图来自：AI生成

有两个站在硅谷最深处的AI天才，乔治·霍兹（George Francis Hotz）和卡帕西（Andrej Karpathy），为了AI编程这件事吵起来了，而他们背后，正是硅谷乃至美国AI市场的撕裂。

到 6 月 1 日，乔治·霍兹那篇博客已经发酵了一个多星期。5 月 24 日，他断言把 AI Agent 引入软件开发，将是这个行业史上最昂贵的错误之一——起初像是一个著名黑客的牢骚，可接下来几天说明，这不是他和卡帕西两个人之间的口角。

以唱衰大模型著称的加里·马库斯当即把它拔到了万亿市值的高度——当连霍兹这样的硬核 AI 拥趸都开始说“代码就是垃圾、会拖垮大公司”，整个生成式 AI 运动就成了一场巨大的谎言——因为编程正是它的顶梁柱，一旦人们想明白，泡沫就会破。

当 AI Agent 开始替人写代码，软件行业最核心的争论已经不再是“它有没有用”，而是：它到底是在提高生产率，还是在用最贵的Token制造一场更难被识别的工程灾难？

而这，不是两个普通程序员之间的技术口水仗。

一、两个天才之争

卡帕西背后，是辛顿、李飞飞、OpenAI、特斯拉和 Anthropic。

他是 OpenAI 最初十一位联合创始人之一、特斯拉前 AI 负责人、李飞飞的学生，曾在斯坦福那间改变了计算机视觉史的实验室里读博。他是“vibe coding”（氛围编程）这个词的发明者，也是过去十年最擅长把复杂 AI 系统讲给普通人听的人之一。现在，他走进了 Claude 的研发腹地。

霍兹背后，是iPhone破解、PlayStation 3逆向、索尼官司、马斯克和自动驾驶黑客文化。

17岁那年，他是全球第一个破解iPhone的人；后来他逆向了PlayStation 3，被索尼告上法庭；再后来，他创办comma.ai，想用后装设备挑战特斯拉的 Autopilot。他不是学院派，也不是大厂高管。他的成名方式一直很简单：拿起螺丝刀，撬开系统，找到那枚真正起作用的螺丝。

这两个人都站在 AI 世界很深的地方，只是位置相反。一个在权力中心内部，看见模型能力正在重写软件工程；一个站在系统之外，认定 Agent 编程会把软件工业推向一场昂贵的自我欺骗。

而 AI 代替人类编程这列火车，已经隆隆开出了车站——谷歌说 75% 的新代码已经由 AI 生成、再由工程师批准；扎克伯格预测，AI 很快将编写和审查 AI 团队的大部分代码。

在工具一侧，Claude Code、Codex、Cursor、Devin 把“让 AI 写代码”从编辑器里的补全，推到了一个更激进的位置：让机器读需求、改文件、跑测试、查文档、提交补丁，甚至同时调度多个子 Agent。

霍兹想拦下这列火车，卡帕西则试图拦下霍兹。

为了刹停它，霍兹站出来说：这可能是软件开发史上最昂贵的错误之一。他在博客里写道：“Agent 不会编程，而且我们意识到它们不会编程这件事，正在变得越来越难。”

他说这句话的五天前，卡帕西刚刚加入 Anthropic，并公开表达了一个相当明确的态度：AI Agent 已经改变了软件开发。

这两句话，刚好把整个行业的矛盾撕了开来。问题不再是 AI 有没有用——那太浅了。真正的问题是：当低水平的人也能用最贵的 Token 生成天量代码，而且很多大公司（也包括中国科技巨头）正把“AI 使用率”当成组织进步的指标，以及更多的“一人公司”都在依赖AI编程讲故事……这些“将得利益者”会产生巨大的焦虑和自我矛盾。

因为他们也想搞清楚，软件工业到底是在迎来了一次生产效率革命，还是在此之前，必须先把技术债、漏洞、维护成本和人才断层这些账单统统结清？

霍兹和卡帕西，就是这场争论中，最戏剧化的两张脸。

一个一生都在拆机器，直到把封闭系统撬开为止。一个一生都在解释机器，直到把复杂系统讲给所有人听。他们都痴迷于理解复杂系统。

二、一个用拨片撬 iPhone，一个在油管教人玩魔方

这两个人为什么会在 AI 编程上吵得这么有代表性，要从他们的少年时代说起。

2007 年，新泽西州格伦罗克镇，一个 17 岁少年握着一台当时全世界最封闭、也最诱人的电子产品：初代 iPhone。它只能在 AT&T 一家运营商的网络上工作，软硬件都被苹果层层锁死。霍兹想让它自由。

他没有先去写一个漂亮的软件工具，而是直接动手。他用修眼镜的小螺丝刀拧开机背的螺丝，拿一片吉他拨片沿着外壳那道几乎看不见的缝隙滑了一圈，把壳子撬开。接下来是焊接，是改电路，是硬件层面的攻坚。几天后，他成了世界上第一个公开解锁 iPhone 的人。然后他做了一件很霍兹的事：跑到网上炫耀。一夜成名，他从此有了个代号，geohot。

这一幕几乎是他一生方法论的预告。面对封闭系统，他的第一反应永远不是接受接口，而是拆开它——哪颗芯片决定了边界，他都要亲眼看见。

几乎在同一段时光，另一个少年也在跟复杂系统较劲，只不过他不是把东西撬开，而是把它讲明白。

卡帕西 1986 年生于当时捷克斯洛伐克的首都布拉迪斯拉发，15 岁随家人移居多伦多。2006 年，他在 YouTube 开了个频道叫 badmephisto，发魔方速拧教程，把一个看上去无从下手的系统拆成一步步谁都能跟着做的指令。那些视频后来累计播放超过 900 万次，连世界级速拧高手 Feliks Zemdegs 都看过。

这件事不是花边。卡帕西后来做的很多事都带着同一种气质：他有一种极强的分享欲，几乎是一种解释的冲动。看到复杂系统，他不只想弄懂，还想讲给别人听。魔方如此，神经网络如此，ImageNet 如此，GPT 如此，vibe coding 也如此。

两人连师承都泾渭分明。霍兹从没走完任何一条体制内的学术路径，是典型的自学成才、谁也管不住。

卡帕西走的是一条金光闪闪的正统血脉：多伦多大学本科上过“深度学习教父”辛顿的课，斯坦福读博师从“ImageNet 之母”李飞飞。

一个在体制外破墙，一个在体制最核心的传承里登堂入室。多年以后，正是这两条路，把他们送到了同一个问题面前：当机器开始写代码，人到底还需要怎样理解机器？

三、五个律师、一个人肉基准，和都做过马斯克的朋友

成名的代价，霍兹很快就尝到了。撬完 iPhone，他转向索尼，2009 年底拿到 PlayStation 3 的读写权限，把能打开整台机器的关键信息公之于众。

索尼派律师把这个二十出头的年轻人告上法庭。霍兹没有躲，反而把事情闹大：他网上募捐、两天筹够辩护费，甚至录说唱视频怼索尼，主张始终只有一句——我花钱买下的东西，凭什么由他们批准我能拿它做什么？

最后，2011 年双方和解，他承诺不再逆向任何索尼产品。但这场官司激怒了黑客社群，此后索尼遭遇一系列攻击，其中 PSN 事件波及约 7700 万账户、服务中断二十多天。霍兹一再声明与攻击无关。

这件事说明了一点：技术冲突一旦和封闭生态、法律机器、社群情绪缠在一起，就会外溢成更大的系统性事件——他后来对一切复杂系统都保持距离，这是他的执念。他关心的从来不是表面功能，而是它能不能被看懂、被控制、被拆开——这件事在他对AI编程缺乏底层信任起到了极大的作用。

而在大陆另一端，卡帕西正在做一件听起来朴素、却堪称他一生隐喻的事：亲自去和机器比赛“看东西”。

2014 年，深度学习刚在图像识别上显出锋芒，最强的卷积网络在 ImageNet 上的错误率已经低到惊人。要判断机器有没有逼近人类，得先知道人类水平是多少。

于是卡帕西坐下来，做了一个普通人绝不会做的工作——他模仿机器，一张张看图、归类，给人类这一方测出了真实成绩：top-5 错误率 5.1%，而他那些耐心更差的同事高达 15%。其中，他发现人类最吃力的，是极其细微的区分，比如一百多种长得几乎一样的狗。从此他给自己起了个半玩笑的称号：“ImageNet 的参考人类”。

一个人用肉眼去和机器比赛看世界，亲手测出人与机器之间那条线在哪——这是他正统履历背后的内心狂野。

也是那前后，2015 年，他写下后来被无数人引用的《循环神经网络不可思议的有效性》。

那是他训练的一个很小的字符级模型，让它模仿莎士比亚、模仿数学排版，甚至模仿 Linux 内核源代码。结果那玩意儿吐出来的东西乍看像模像样，细看处处似是而非——它学会了代码的“样子”，却不懂代码的“意思”。卡帕西为这个会产出“看着像样、实则破碎的代码”的小模型感到惊讶和叹息。

某种意义上，卡帕西的经历比霍兹更贴近AI编程这件事，也更矛盾——他尝试过这件事，为这件事的结果不满意而叹息过，但最终他成了力挺这件事的人，这其中有多少心路上的转折？

真正把两人的人生放进同一个尺度的，是埃隆·马斯克。

2015 年前后，马斯克想招霍兹去特斯拉做新一代 Autopilot，开出据说带数百万美元奖金的条件。霍兹拒绝了，公开说马斯克“不断改变条件”，并撂下狂言：这套自动驾驶他一个人就能做出来。然后他真就回家，在车库里花约一个月把一辆本田讴歌改成了自动驾驶原型车，彭博社为此做了篇著名报道。

他还向马斯克下战书，要拿这辆讴歌去洛杉矶 405 号高速对决一辆开着 Autopilot 的特斯拉，但马斯克没有应战。

霍兹拿到顶级风投投资成立 comma.ai，做 999 美元的后装智能驾驶改装套件，2016 年秋天发布。然后监管来了——加州车管所禁令，紧接着是美国国家公路交通安全管理局一封措辞客气却威胁着每天最高约两万美元罚款的信，里面有一句让他无言以对：几乎可以肯定，会有司机以超出预期用途的方式使用你的产品。

霍兹当场把产品砍了，发推说宁可把人生花在开发牛逼的技术上，也不愿对付监管和律师，然后开源方案、转身走人。

这个母题在他身上反复出现：退出 iPhone 越狱，砍掉 comma one，2022 年又自荐去给刚接管Twitter 的马斯克当了一个月“实习生”，只换旧金山生活成本。

临走前，他学马斯克发投票问粉丝该不该辞职，六成多说别走，他照样走，留下一句“该回去写代码了”——这是一个永远站在体制之外、永远相信“一个真正看懂系统的人能干翻一支大军”的人。

卡帕西的选择正好相反。2017 年他接受马斯克的邀请加入特斯拉，出任 AI 高级总监，直接向马斯克汇报，主管 Autopilot 视觉系统，一干五年，期间提出影响深远的“软件 2.0”理念：未来的软件不再完全由程序员一行行写出，而是由数据训练出来。

离开特斯拉后，他短暂回 OpenAI 参与 GPT-4 和 ChatGPT的工作，之后创办了一家AI教育公司，做回他从魔方时代起就最擅长的事——把最艰深的东西讲给最普通的人听。

正是在这段做老师的日子里，他随手在X上造了“vibe coding”（氛围编程），火遍全球。他最初的描述很轻快——完全交给感觉，拥抱指数曲线，忘掉代码本身的存在。为此，他还说过那句被引用无数次的话：最热门的新编程语言，是英语。

一个拒绝马斯克、扬言单干，一个接受马斯克、走进核心。他们对马斯克的相反选择，恰好对应着对一个更古老问题的不同信任：面对庞大系统，你该信任那个看懂了一切的个人，还是那台不断变强的机器？

四、同一个冬天，反向对穿

2025年的冬天是这个故事真正的转折点。迷人之处在于：两个人都翻转过，方向相反，时间几乎重合，用的还是同一批刚刚成熟起来的模型。

先说卡帕西。很多人不知道，就在 2025 年下半年，这位“vibe coding”的发明者本人还在唱衰 AI Agent，公开说这些产品远未成熟、外界炒作过头。可见造词的人，自己并不那么信AI编程这件事。

但让他翻转的是一个具体的周末：他想给自家监控摄像头做一个能分析视频的小看板，几个月前这是一整个周末的活，这一次他只用大白话把任务交给 Agent，看着它自己干了大约半小时——自己排错、自己上网查方案、自己写代码配服务，最后把一个能用的成品交到他手里。

这段经历让他改了口，他说，编程正在变得“面目全非”。他说 Agent 在 12 月之前基本不能工作，之后基本能工作了。他为此下了很重的判断——这绝不是软件行业“一切照旧”的时刻。

于是他把那个轻佻的“vibe coding”往更严肃的方向推了一步，叫“agentic engineering”。

但卡帕西从没变成AI编程的无脑鼓吹者，这一点决定了他比看上去难对付得多。

因为即便最兴奋时他也守着分寸，他强调：Agent 本质上还是“实习生”，你必须替它把控审美、判断、品味和监督；它只在能被清楚界定、能被验证的任务上才真正管用；一个人深厚的技术功底在这个时代不是更小的乘数，而是更大的乘数。

某种程度上，他是对的，他谨慎对待的，甚至和霍兹的关注是相通的。但从自身经验出发，他是被证据改变了主意的人，而且改得很诚实——他承认自己几周前还站在反方。

霍兹的方向恰好相反，而且很多人忽略了一点：在这场翻转之前，他并不是一个从不碰 AI 的老派程序员。他试过，深度试过，而且是在自己最在意的真实项目里试——用各种 Agent 写 tinygrad，用它们做硬件逆向。对一个一生都要把机器拆到底的人来说，这早已不是“玩一玩”。

六个月下来，他的结论很难听：Agent 会把所有进展都提前堆在最前面，然后递给你一根老虎机拉杆，让你一遍遍去拉，指望它把最后的打磨做完，可它永远差那么一点。

他真正讨厌的就是这“差一点”。在普通人眼里，能跑就行、能演示就行、能交差就行。但对霍兹这样的人，软件工程里最值钱的部分，往往恰恰在最后那一点：为什么这个抽象成立，为什么边界要这样切，为什么这里不能走捷径，为什么这个 bug 不能靠再生成一次就解决……这其实是他一生中第一个只能反对，但无法用螺丝刀撬开的复杂系统。

他甚至怀疑，整套“再不用 AI 就会被淘汰”的恐惧叙事，本身就是一场“为了卖 Agent 而制造出来的心理战”。他给出了那句日后被反复引用的判词：这将是一个垃圾代码成吨涌出的黄金时代，也是高质量精品的黑暗时代。

最后，他亮明站队的位置：在 LLM 这个问题上，他站到了 LeCun 和 Marcus 那一边——LeCun 近期又一次否认 LLM 拥有智能，理由正是：智能是在陌生情境里找到解法，而不是以不同精度去模仿已有的东西。

在霍兹看来，真正的编程 Agent 需要的是世界模型，而不是现在这套他刻薄形容为“把失败的测试注释掉、再告诉你所有测试都通过了”的东西。

把两人的翻转并排放在一起：一个曾经测量“人能看见、机器看不见”那条线的人，承认那条线已经被推到了新位置；一个一生都在物理地拆开机器的人，宣布机器写出的坏代码正变得更像好代码、更难分辨，也因此更危险。一个说差距变小了，一个说理解变少了。

这不是两个意见领袖的对骂，是软件行业在同一个冬天，突然照见了自己的两种未来。

五、把账算清：低水平的人用最贵的 Token 量产垃圾，是真的吗？

AI 编程是不是伪命题？

不是，这个问题已经过时了。从 Cursor 到 Claude Code，从 Devin 到 Codex，它早已不在演示视频里，而是进了公司工作流、管理层的效率叙事、投资人对软件公司成本结构的重新想象。在一些创业公司那里，它甚至成了估值逻辑的一部分：一个小团队为什么能做过去几十人的事？因为他们带着一队 Agent。

这恰恰是它危险的地方。一件事一旦被放进估值逻辑和组织指标，就不再只是技术问题。它会被 KPI 化，被管理层要求“必须用起来”，也会被低水平使用者当成遮羞布。

要判断霍兹是不是太悲观，得把现实世界的证人请上来——而他们的口径，是完全站在论点的两端。

第一个证人来自实验室。METR 是一家专门研究 AI 能力和风险的非营利机构，它做过一次随机对照实验：让有经验的开源开发者在自己熟悉的成熟项目里，用或不用 AI 完成任务。结果很刺眼：用了 AI 之后，他们反而慢了 19%。更刺人的是后半句——这些开发者事前预测 AI 会让他们快 24%，事后即便已经慢了，仍坚信自己快了 20%。

感觉变快，实际变慢，本人毫无察觉。这几乎就是霍兹那句“坏得越来越隐蔽”的实验室版本。

后来 METR 想用更新的工具重做实验，却发现做不成了，因为越来越多开发者已经不愿意在“不许用 AI”的条件下工作。工具可能在变强，但组织越来越难知道自己到底强了多少——因为采用率本身，开始遮蔽真实产出。

第二个证人来自代码本身。代码分析公司 GitClear 连续两年分析了超过两亿行代码变更，数据干脆得不留情面：2024 年，复制粘贴的代码块激增到从前的数倍，并在历史上第一次超过了被重构、被复用的代码；衡量“重构”的“移动代码”占比，从 2021 年的约四分之一，跌到 2024 年的不足一成；而新写的代码在两周内就被推翻重改的比例，几年间几乎翻倍。

这组数字翻译成人话就是：人们在飞快地往系统里堆新代码，却越来越懒得去整理它、复用它、让它保持连贯。这不是某个程序员的懒，这是工具的默认倾向——AI 擅长生成，不擅长收拾。而代码重复，恰恰是 bug 的温床。

第三个证人本不该站在这一边。Mario Zechner 是知名游戏框架 libGDX 的作者，Armin Ronacher 是 Flask 的作者，几乎每个写过 Python Web 应用的人都绕不开他的影响。他们还亲手打造过爆火 AI 编程工具的核心组件——按理说他们最该为这波浪潮欢呼。但他们反而发出警告，把眼下很多 AI 编程叫做“vibe slop”，这句话的意思是：程序员不再认真设计和测试，而是让 AI 快速拼出一套东西，最后产出一堆经不起时间考验的软件。

Zechner 警告说，基础设施正在崩溃，软件比以前漏洞百出；这游戏还能再玩几个月甚至几年，但它最终会让我们付出代价。这句话的分量在于，他不是站在门外骂，他就在屋里。

第四个证人，是钱。

如果说前三个证人是技术语言，Uber 提供的是 CFO 和 COO 能听懂的语言。Uber 的首席运营官在访谈里说，公司内部 AI 成本正变得越来越难被论证为“合理投入”；此前其 CTO 抱怨公司已经提前花光了 2026 年的 Claude Code 预算。这句话在 Uber 内部引发了认真讨论：token 消耗到底换来了什么？

COO 和多位高级工程负责人沟通后得到一个不舒服的结论——token 用得更多，并不意味着公司能同比例交付更多真正有用的功能。他说：“这个关联现在还不存在。”

把这四个证人摆在一起，一个共同的事实浮了出来：采用，不等于价值。

一家公司可以让 95% 的工程师都在用 AI，烧掉巨量 token，在仪表盘上看到使用率飙升，却仍然说不清楚：消费者得到的功能有没有同比例增加？系统质量有没有提高？事故有没有减少？

事实上，AI 编程最棘手的地方就在这里——局部体感极强，整体核算很难。程序员写个脚本真的觉得快，创业者做个 Demo 真的觉得神，但上升到组织层面，token 是真金白银，代码审查是真工时，未来维护是真成本，线上事故也是真损失。

所以，“低水平的人用最贵的 Token 生产天量垃圾代码”这个说法，虽然难听，却抓住了要害。它不是在骂初级程序员，它说的是一种组织激励的扭曲——当公司开始奖励 AI 使用率、奖励更多 commit、奖励更快交付、奖励“十倍代码量”，最先被放大的未必是最好的工程判断，而是最容易量化的表面产出。

这件事在大组织里尤其致命——反馈循环慢，责任分散，代码库庞大，历史包袱深。一个 Agent 能生成看似正确的代码，却不知道十年前为什么有人刻意避开这个方案；一个新人能用 Agent 飞快提交 patch，却不知道它触碰了哪个业务雷区。

更重要的是，当管理者看到“采用率”提高，就以为生产率提高，却看不见未来三年的维护成本正在悄悄堆积——这件事，目前在中国也在频繁发生——各大AI巨头目前讲的都是“采用率”和“替代率”的故事，没人敢提醒风险，没人公开讨论代价。

这就是霍兹观点的真正价值所在。他要反对的，不是“AI 能不能写代码”——AI 显然能写，而且会越来越能写。他反对的是一种偷换：把“生成速度”误认为“工程能力”，把“通过测试”误认为“理解系统”，把“AI 使用率”误认为“生产率”。

在他看来，Agent 学的是“编程产物”的分布，而不是人类工程师在真实系统里形成判断、权衡边界、承担后果的过程。

代码和文章不一样——一篇社论“只要有一部分事实是真的”，就有传播价值，可代码的价值不在于“部分代码可能是对的”，而在于它在关键状态下正确、在系统变化时不成为障碍。

AI编程给这件事上的难度是——过去的坏代码一眼能看出坏，现在的AI编出的坏代码极具隐蔽性——它们风格统一、变量名漂亮、注释完整、测试也绿，它不是以笨拙的方式失败，而是以流畅的方式失败。

语法、风格、测试这些过去用来判断“值不值得信任”的质量信号，正在被模型批量、廉价地伪造出来。

卡帕西是诚实的，虽然他的立场就摆在那里，但他本人都不回避这一点。在近期一档播客里，他一边坚持用对了 Agent 能把生产率抬高十倍不止，一边承认：真去读 Agent 写出来的代码时，他有时会“心脏一惊”——臃肿、满是复制粘贴、抽象脆弱，能跑，但很糙。最大的鼓吹者，亲口印证了 GitClear 的那组数字。

当然，乐观派的反驳并不弱：模型会进步，上下文会更长，记忆会更好，今天像实习生不代表明天还是实习生。最公允的中间证人是 Simon Willison——Django 框架的共同作者、“提示词注入”概念的提出者之一，一向对 AI 的可靠性极其警惕。但连他都承认，过去一年 AI coding 工具发生了真实变化，他甚至说 vibe coding 和 agentic engineering 正在变得比他希望的更接近。这句话很微妙：工具确实变强了，连最谨慎的人都在更多地用它；但也正因如此，边界更难划了。

于是真正的问题不再是“这列火车要不要紧急刹车”。它已经停不下来，也没必要简单停下。真正的问题是：这列火车，到底有没有刹车系统。

六、两难：刹车，还是不刹车？

把霍兹和卡帕西的分歧放进真实的产业环境里推演，会得到两条都很难走的路。

假如霍兹是对的，就相当于，行业某天将集体承认 Agent 编程从根上靠不住，那将不是一篇博客能带来的后果——所有 AI 模型公司的估值逻辑会被一刀斩断——编程是当下大模型最大、最能讲钱的应用场景，抽掉它，华尔街不会答应，投资基金不会认可，那些把“AI 写了多少代码”写进财报和路演的巨头与创业公司，市值会瞬间失血。

更要命的是另一头：那些已经习惯了 Agent 的程序员和组织，被要求切换回旧模式——重新一行行手写、一个个手调。可他们回不去了。初级工程师的成长路径已经改道，团队的工作流已经重建。

假如霍兹的对手是对的，也就是说Agent 编程的能力不会从根底上被否认，而是会一路上升，那场面只会更热闹——代码生成更容易，AI 公司和工具公司的估值继续上扬，引入 Agent 的大企业市值飙涨，“一人公司”“一个人造出十亿美元工具”的神话会被一遍遍重讲。

但是你是否想到，如果霍兹真正的恐惧在这种鲜花著锦、烈火烹油的时代节奏里真的实现了，那么，很有可能的是——海量“以流畅方式失败”的代码，会被持续合并进支付系统、航空调度、电网、交易引擎这些没人能完全看懂、也没人愿意承担后果的庞大系统里，崩塌不会以“今天这个函数写错了”的方式到来，而会以一次灾难的方式出现，甚至在某个谁也没预料的边界条件上，一次性结清。

两条路之所以值得深入的讨论，是因为它不仅仅是乐观者与悲观者在斗嘴，而是两个同时成立的问题：

AI Agent 是否会改变软件开发？答案已经是会。AI Agent 是否会自动让软件工业变得更好？答案远没有那么确定。

结语

他们可能都对，也可能都错。霍兹也许低估了工具进化的速度——历史上太多看似不可委派的技能，最后都被工具吸收、封装、商品化。卡帕西也许低估了组织退化的速度——同一件工具，在高手手里是杠杆，在低水平组织里可能是债务机器，而技术的进步从不自动带来纪律的进步；有时候，它最先摧毁的，恰恰是那些看起来变得“没那么必要”的纪律。

而我们其余所有人，正生活在他们这场对赌的支票还没到期的日子里。

本文来自微信公众号：胡说成理，作者：胡喆

AI创投日报频道: 前沿科技

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定