AI普及编程工具催生“代码大爆炸”，AI生成速度远超人类审核能力，引发质量责任等问题，行业尝试用AI解决但仍存争议，人类审查仍是当前最后防线。 ## 1. AI催生“代码大爆炸”，代码产能失控增长 AI更倾向于新增代码而非复用重构已有代码，代码重复率从2020年的约3.3%攀升至2023年的7.1%。由于理解已有组件成本远高于AI生成成本，多数开发者选择重新生成而非复用，减少了架构思考，代码无节制繁殖。 AI为保证逻辑完备性常生成冗余防御代码、过度抽象，加上组织层面以代码行数为隐性KPI，最终导致代码生成速度远超人类审核上限：5分钟生成1000行代码，人工审核需约40分钟。 ## 2. 审核缺口引发多重行业负面连锁反应 AI生成代码的安全漏洞占比约25%，显著高于人类编写平均水平，当前开发者花在审核调试AI代码的时间已超过过去亲手写代码的时间。持续高强度审核引发开发者普遍认知疲劳与职业倦怠，未经充分审核的冗余低质代码积累形成技术债，催生“代码越多→质量越差→修改越难→新代码越多”的恶性循环。开源生态也受到冲击：cURL创始人因无力处理潮水般的低质量AI贡献，关闭了运行六年的漏洞赏金计划，部分开源项目直接明令禁止AI生成贡献。 ## 3. 行业尝试用AI补全审核缺口，仍存核心矛盾当前已有不少落地实践：Cursor收购代码审查初创公司Graphite优化审查优先级，阿里巴巴通义灵码已贡献超一半有效代码评审意见，总体有效评审量同比翻倍，创业公司也在打造全流程AI代码质量管理平台。 Anthropic的Project Glasswing联合行业多方测试AI审核能力，启动后数周就发现超过1万个高危/严重级软件漏洞，Firefox团队靠其修复了271个此前难发现的漏洞。 AI审核仍存在核心风险：能力过强的AI审核工具既可以找漏洞也可能被滥用来发现漏洞制造攻击，目前仍无法替代人类承担质量与安全责任。 ## 4. AI时代人类审查的定位争议 AI提升代码产能后，当前阶段反而增加了人类的审核工作量，并未实现预期的效率飞跃。人类审查既是当前AI时代的效率瓶颈，也是软件质量与安全不能撤除的最后一道防线，问题最终仍需时间给出答案。

2026-06-24 15:59

AI太会写代码，人类已经审不过来了

字母AI

速览

本文来自微信公众号：字母AI，作者：小金牙，头图来自：AI生成

凌晨三点，某金融科技公司的代码仓库依旧在更新。

工程师没有通宵加班，是AI还在库库干活。

自从团队全面接入AI编程工具后，这家公司的月均代码产量，从过去的2.5万行飙升到25万行。短短几个月，仓库里积压了超过100万行尚未完成审查的代码。《纽约时报》把这一现象称为“代码大爆炸”（The Big Bang of Code）：生成的速度，已经远远超过人类消化的能力。

5分钟生成1000行代码，40分钟才能勉强审完。

写代码第一次变成了最轻松的部分。真正的卡点变成了理解与审核。

行业当然也在试图补上这个缺口。以Anthropic的Opus4.8，以及更高一档但受限开放的Mythos/Fable系列为代表，已经不满足于把代码写得更快，而开始强化代码理解、跨文件推理和审查能力：追踪变量流向、识别潜在漏洞、给出带上下文的修改建议。它们正在被赋予新角色，从程序员的助手，到审查员的助手。

但这并没有让问题消失。AI负责生成，AI也开始参与审查；代码产能继续膨胀，理解和责任却没有同步跟上。

当Claude Code、Cursor等工具把“对话框”变成主战场，工程师越来越像“提示词调度员”，而不再只是传统意义上的程序员。代码洪流席卷而来，但谁来为质量负责？谁来为漏洞负责？谁来真正理解这套系统的结构？

更尖锐的问题是：人类审查，究竟是AI时代低效的瓶颈，还是最后一道不能撤掉的防线？

一、代码洪流：为什么AI会生产这么多代码？

AI产出代码的速度为何远超人类审核的能力上限？这并非单一原因所致。

AI擅长生成新代码，却不擅长复用旧代码。

代码分析公司GitClear在2023年的一项研究发现，随着GitHub Copilot、Cursor等AI编程工具的流行，代码重复率（即“克隆代码”）已从2020年的约3.3%攀升至7.1%。报告指出，AI更倾向于“新增代码块”，而不是建议删除、重构或移动既有代码。

当开发者要求实现一个功能组件时，AI可能会在项目的不同角落，生成五个看似大同小异的文件，而非建议开发者复用或重构已有的一个。

AI像一个永远只会往房间里添家具的助手——沙发坏了？再给你来一个新的。墙面过时了？再刷一层。至于空间是否拥挤，它不负责。

更关键的是，开发者行为也随之异化。

理解一个已有组件，平均需要5分钟；让AI生成一个功能类似的新组件，只需10秒。

成本差距摆在那里。

于是越来越多开发者选择“重新生成”，而不是“复用理解”，快速产出模块，但减少架构思考。

当理解成本高于生成成本，代码就开始无节制繁殖。

然而，速度的提升往往以牺牲设计的严谨性、架构的清晰度为代价，为未来的维护埋下隐患。

同时，AI工具正在重塑编程的界面。以Claude Code和Cursor的“智能体模式”为例，Agent模式下，编译器窗口几乎被弱化，过去，开发者在IDE里写代码、调试、重构；现在，更多时间在和模型“聊天”。

复杂Excel报表？过去查文档两小时。现在一句话需求，十几秒生成完整脚本。

然而，便利的另一面是“大脑过滤”的失效。开发者不再需要深入思考细节，AI为了确保逻辑的“完备性”，常常会添加大量防御性代码、边界检查，甚至过度工程化的抽象层，导致生成的代码虽能运行，却冗长、复杂，犹如一篇过度解释的说明书，极大增加了阅读与审查的成本。

更极端的，是组织层面的推动。

Meta等科技公司内部曾兴起名为“tokenmaxxing”的竞赛，鼓励工程师比拼谁能用最少的提示词，驱动AI生成最多行代码。代码行数（Lines of Code，LOC）这一陈旧且饱受诟病的指标，在AI时代被意外地重新赋予“核心KPI”的意味。

Meta首席技术官安德鲁·博斯沃思（Andrew Bosworth）在一份内部备忘录中曾乐观地写道：“过去需要数百名工程师的项目，现在几十人就能完成。过去需要数月的工作，现在几天就能搞定。”这种预期催生了“人不如AI”的焦虑，也驱使团队追求代码产出的“数字繁荣”，而非内在质量。其结果，便是海量未经充分思考、设计的代码被快速提交，涌向本已脆弱的审查通道。

AI生成的代码，在“正确性”与“优雅性”之间存在巨大鸿沟。为了满足一个复杂需求，AI可能会生成多层嵌套的回调函数，或使用晦涩难懂的库特性。

不同开发者或同一开发者在不同时间，由于提示词的细微差别，生成的代码风格、结构可能迥异。这种不一致性，让后续的代码审查如同阅读一本多人合著且没有统一文风的文集，理解成本陡增。

更根本的挑战在于，AI并不真正理解业务的上下文、系统的长期演进目标和技术债的代价。它生成的是一段“在当下看似正确”的代码片段，而非“在整体系统中可维护、可演进”的代码。

二、审查不过来，会发生什么？

代码产量的激增，并未带来预期中的效率飞跃，反而触发了连锁的负面反应，将开发者拖入更深的疲惫与技术债泥潭。

我们是在用更快的机器，制造更慢的流程吗？

AI几分钟生成上千行代码，人工审查却需要数十分钟甚至更久。

安全公司Snyk在2023年的一份报告中指出，AI生成的代码中，约有25%含有已确认的安全漏洞，这一比例显著高于人类编写的平均水准。

其结果是一种诡异的角色倒置。越来越多开发者坦言，现在他们花在审查、调试、修改AI代码上的时间，已经超过了以往自己动手编写的时间。

审查海量AI代码，是一项高强度、高密度的脑力劳动。开发者需要持续判断：这段代码的逻辑是否周全？是否有隐藏的错误？是否与系统其他部分存在冲突？是否引入了安全风险？

《麻省理工科技评论》等媒体指出，持续的、高强度的AI代码审查，正导致全球范围内的开发者出现普遍的职业倦怠、认知疲劳和心理压力。他们的大脑长期处于“防御性”的审查模式，而非“创造性”的构建模式，创新热情与工作满意度受到侵蚀。

未经充分审查的代码一旦进入代码库，便成为未来的“技术债”。AI生成的代码，由于其冗余、高耦合和低可读性的倾向，往往本身就是高利息的“债务”。这些代码的积累，使得系统架构日益腐化，短期可运行，长期难维护。技术债开始滚雪球，形成“代码越多，质量越差，修改越难，新代码越多”的恶性循环。最终，整个系统可能变得无人能够完全理解，每一次改动都如履薄冰。

AI代码的浪潮也猛烈冲击着开源世界的协作伦理。

许多知名开源项目维护者不堪其扰。

2023年，cURL创始人丹尼尔·斯坦伯格（Daniel Stenberg）因无力处理如潮水般用AI生成的、质量低劣的漏洞报告和补丁，最终关闭了运行六年的漏洞赏金计划。

另一款开源工具Ghostty的创建者米切尔·哈西莫夫（Mitchell Hashimoto）则直接明令禁止所有由AI生成的贡献，并推出了基于信任的“担保人”制度。开源的核心——开放的协作与智慧共享，正因AI的无差别、低质量贡献而面临严峻挑战。

三、答案也在AI吗？

当问题由AI制造，行业自然会问：能否再用AI解决？

我们把这个问题分别抛给一位字节的高级数据运营、一位滴滴的工程师专家和一位美国初创企业的软件工程师，他们都表示，工作中已经大量使用AI写代码，且认为未来AI写代码+AI审查是一个确定的趋势。

他们表示，目前人工检查AI代码会遇到一些难点，比如代码量大，人工需要读懂逻辑和写法，会消耗大量的时间；在安全性上有风险，可能泄露数据结构；有时会存在逻辑一致性的问题，需要手动修改。

领先的科技公司正在积极布局。

2025年12月，明星AI编程工具Cursor收购了代码审查机器人初创公司Graphite，旨在帮助工程师优先处理最敏感、风险最高的代码审查请求。

在中国，大厂也已在实践。比如阿里巴巴的“通义灵码”AI编程助手已深入数万开发者的日常，官方数据显示，每天有超过一半的有效代码评审意见已由AI自动产生。在人工评审量小幅下降的背景下，总体有效评审量（含AI意见）实现了同比翻倍。阿里甚至联合高校开源了业界首个多语言、具备存储库上下文感知的CodeReview Benchmark，试图为AI代码评审设立行业标准。

初创公司也看到了其中的巨大机遇。像Qodo这样的公司，专注于打造“AI代码生成->风险发现->自动审查->治理修复”的全流程平台，并因此获得了巨额融资，预示着代码质量管理市场即将迎来爆发。

在所有尝试中，最引人注目也最富争议的，是Anthropic的Project Glasswing。这个项目最早围绕Claude Mythos Preview展开，集结了AWS、苹果、谷歌、微软、思科、Linux基金会等科技与开源生态里的关键玩家，后来又扩大到约150个新机构，覆盖电力、水务、医疗、通信、硬件等关键基础设施领域。

它的目标不只是让AI找漏洞、修漏洞，更是提前演练一个问题：当强大的AI模型足以大规模发现软件缺陷时，网络安全行业该如何验证、披露、修补这些突然涌来的漏洞。

Mythos Preview的能力已经足够让行业紧张。Anthropic称，Project Glasswing启动后的几周里，它和大约50个合作伙伴用Mythos Preview发现了超过1万个高危或严重级别的软件漏洞。Mozilla的案例更直观：Firefox团队把Claude Mythos Preview接入安全排查流程后，在Firefox150版本中修复了271个由这轮评估发现的漏洞，其中不少是过去需要顶级安全研究员长时间推理才能发现的问题。

但问题也随之反过来了。Anthropic最初没有把Mythos Preview向普通用户开放，理由是它的网络安全能力太强，可能被滥用。

6月，Anthropic试图用两条线推进：一边推出受防护的Fable5，面向更广泛用户；一边推出限制更少的Mythos5，继续给少数安全团队使用。但几天后，美国政府以国家安全和出口管制为由要求暂停外国人访问Fable5和Mythos5，Anthropic随即关闭了所有客户对这两个模型的访问。

这让Mythos成了一个非常典型的AI时代矛盾：它可能是修补软件漏洞的利器，也可能被用来更快地发现和利用漏洞。

AI既是矛，也是盾。最有可能缓解AI代码安全问题的工具，本身也可能成为新的安全风险源。

那么，人类审查，是AI时代的软件瓶颈吗？

也许是。但它也是当下的最后一道防线。

AI提高生产力，本应让人类摆脱重复劳动。然而在当前阶段，它却也增加着工作量，而非减少。是AI跑得过快，还是人类不够快？这也许是一个需要让时间来回答的问题。

本文来自微信公众号：字母AI，作者：小金牙

AI创投日报频道: 前沿科技

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定