AI普及编程工具催生“代码大爆炸”,AI生成速度远超人类审核能力,引发质量责任等问题,行业尝试用AI解决但仍存争议,人类审查仍是当前最后防线。 ## 1. AI催生“代码大爆炸”,代码产能失控增长 AI更倾向于新增代码而非复用重构已有代码,代码重复率从2020年的约3.3%攀升至2023年的7.1%。 由于理解已有组件成本远高于AI生成成本,多数开发者选择重新生成而非复用,减少了架构思考,代码无节制繁殖。 AI为保证逻辑完备性常生成冗余防御代码、过度抽象,加上组织层面以代码行数为隐性KPI,最终导致代码生成速度远超人类审核上限:5分钟生成1000行代码,人工审核需约40分钟。 ## 2. 审核缺口引发多重行业负面连锁反应 AI生成代码的安全漏洞占比约25%,显著高于人类编写平均水平,当前开发者花在审核调试AI代码的时间已超过过去亲手写代码的时间。 持续高强度审核引发开发者普遍认知疲劳与职业倦怠,未经充分审核的冗余低质代码积累形成技术债,催生“代码越多→质量越差→修改越难→新代码越多”的恶性循环。 开源生态也受到冲击:cURL创始人因无力处理潮水般的低质量AI贡献,关闭了运行六年的漏洞赏金计划,部分开源项目直接明令禁止AI生成贡献。 ## 3. 行业尝试用AI补全审核缺口,仍存核心矛盾 当前已有不少落地实践:Cursor收购代码审查初创公司Graphite优化审查优先级,阿里巴巴通义灵码已贡献超一半有效代码评审意见,总体有效评审量同比翻倍,创业公司也在打造全流程AI代码质量管理平台。 Anthropic的Project Glasswing联合行业多方测试AI审核能力,启动后数周就发现超过1万个高危/严重级软件漏洞,Firefox团队靠其修复了271个此前难发现的漏洞。 AI审核仍存在核心风险:能力过强的AI审核工具既可以找漏洞也可能被滥用来发现漏洞制造攻击,目前仍无法替代人类承担质量与安全责任。 ## 4. AI时代人类审查的定位争议 AI提升代码产能后,当前阶段反而增加了人类的审核工作量,并未实现预期的效率飞跃。 人类审查既是当前AI时代的效率瓶颈,也是软件质量与安全不能撤除的最后一道防线,问题最终仍需时间给出答案。
AI太会写代码,人类已经审不过来了
2026-06-24 15:59

AI太会写代码,人类已经审不过来了

本文来自微信公众号:字母AI,作者:小金牙,头图来自:AI生成


凌晨三点,某金融科技公司的代码仓库依旧在更新。


工程师没有通宵加班,是AI还在库库干活。


自从团队全面接入AI编程工具后,这家公司的月均代码产量,从过去的2.5万行飙升到25万行。短短几个月,仓库里积压了超过100万行尚未完成审查的代码。《纽约时报》把这一现象称为“代码大爆炸”(The Big Bang of Code):生成的速度,已经远远超过人类消化的能力。


5分钟生成1000行代码,40分钟才能勉强审完。


写代码第一次变成了最轻松的部分。真正的卡点变成了理解与审核。


行业当然也在试图补上这个缺口。以Anthropic的Opus4.8,以及更高一档但受限开放的Mythos/Fable系列为代表,已经不满足于把代码写得更快,而开始强化代码理解、跨文件推理和审查能力:追踪变量流向、识别潜在漏洞、给出带上下文的修改建议。它们正在被赋予新角色,从程序员的助手,到审查员的助手。


但这并没有让问题消失。AI负责生成,AI也开始参与审查;代码产能继续膨胀,理解和责任却没有同步跟上。


当Claude Code、Cursor等工具把“对话框”变成主战场,工程师越来越像“提示词调度员”,而不再只是传统意义上的程序员。代码洪流席卷而来,但谁来为质量负责?谁来为漏洞负责?谁来真正理解这套系统的结构?


更尖锐的问题是:人类审查,究竟是AI时代低效的瓶颈,还是最后一道不能撤掉的防线?


一、代码洪流:为什么AI会生产这么多代码?


AI产出代码的速度为何远超人类审核的能力上限?这并非单一原因所致。


AI擅长生成新代码,却不擅长复用旧代码。


代码分析公司GitClear在2023年的一项研究发现,随着GitHub Copilot、Cursor等AI编程工具的流行,代码重复率(即“克隆代码”)已从2020年的约3.3%攀升至7.1%。报告指出,AI更倾向于“新增代码块”,而不是建议删除、重构或移动既有代码。


当开发者要求实现一个功能组件时,AI可能会在项目的不同角落,生成五个看似大同小异的文件,而非建议开发者复用或重构已有的一个。


AI像一个永远只会往房间里添家具的助手——沙发坏了?再给你来一个新的。墙面过时了?再刷一层。至于空间是否拥挤,它不负责。


更关键的是,开发者行为也随之异化。


理解一个已有组件,平均需要5分钟;让AI生成一个功能类似的新组件,只需10秒。


成本差距摆在那里。


于是越来越多开发者选择“重新生成”,而不是“复用理解”,快速产出模块,但减少架构思考。


当理解成本高于生成成本,代码就开始无节制繁殖。


然而,速度的提升往往以牺牲设计的严谨性、架构的清晰度为代价,为未来的维护埋下隐患。


同时,AI工具正在重塑编程的界面。以Claude Code和Cursor的“智能体模式”为例,Agent模式下,编译器窗口几乎被弱化,过去,开发者在IDE里写代码、调试、重构;现在,更多时间在和模型“聊天”。


复杂Excel报表?过去查文档两小时。现在一句话需求,十几秒生成完整脚本。


然而,便利的另一面是“大脑过滤”的失效。开发者不再需要深入思考细节,AI为了确保逻辑的“完备性”,常常会添加大量防御性代码、边界检查,甚至过度工程化的抽象层,导致生成的代码虽能运行,却冗长、复杂,犹如一篇过度解释的说明书,极大增加了阅读与审查的成本。


更极端的,是组织层面的推动。


Meta等科技公司内部曾兴起名为“tokenmaxxing”的竞赛,鼓励工程师比拼谁能用最少的提示词,驱动AI生成最多行代码。代码行数(Lines of Code,LOC)这一陈旧且饱受诟病的指标,在AI时代被意外地重新赋予“核心KPI”的意味。


Meta首席技术官安德鲁·博斯沃思(Andrew Bosworth)在一份内部备忘录中曾乐观地写道:“过去需要数百名工程师的项目,现在几十人就能完成。过去需要数月的工作,现在几天就能搞定。”这种预期催生了“人不如AI”的焦虑,也驱使团队追求代码产出的“数字繁荣”,而非内在质量。其结果,便是海量未经充分思考、设计的代码被快速提交,涌向本已脆弱的审查通道。


AI生成的代码,在“正确性”与“优雅性”之间存在巨大鸿沟。为了满足一个复杂需求,AI可能会生成多层嵌套的回调函数,或使用晦涩难懂的库特性。


不同开发者或同一开发者在不同时间,由于提示词的细微差别,生成的代码风格、结构可能迥异。这种不一致性,让后续的代码审查如同阅读一本多人合著且没有统一文风的文集,理解成本陡增。


更根本的挑战在于,AI并不真正理解业务的上下文、系统的长期演进目标和技术债的代价。它生成的是一段“在当下看似正确”的代码片段,而非“在整体系统中可维护、可演进”的代码。


二、审查不过来,会发生什么?


代码产量的激增,并未带来预期中的效率飞跃,反而触发了连锁的负面反应,将开发者拖入更深的疲惫与技术债泥潭。


我们是在用更快的机器,制造更慢的流程吗?


AI几分钟生成上千行代码,人工审查却需要数十分钟甚至更久。


安全公司Snyk在2023年的一份报告中指出,AI生成的代码中,约有25%含有已确认的安全漏洞,这一比例显著高于人类编写的平均水准。


其结果是一种诡异的角色倒置。越来越多开发者坦言,现在他们花在审查、调试、修改AI代码上的时间,已经超过了以往自己动手编写的时间。


审查海量AI代码,是一项高强度、高密度的脑力劳动。开发者需要持续判断:这段代码的逻辑是否周全?是否有隐藏的错误?是否与系统其他部分存在冲突?是否引入了安全风险?


《麻省理工科技评论》等媒体指出,持续的、高强度的AI代码审查,正导致全球范围内的开发者出现普遍的职业倦怠、认知疲劳和心理压力。他们的大脑长期处于“防御性”的审查模式,而非“创造性”的构建模式,创新热情与工作满意度受到侵蚀。


未经充分审查的代码一旦进入代码库,便成为未来的“技术债”。AI生成的代码,由于其冗余、高耦合和低可读性的倾向,往往本身就是高利息的“债务”。这些代码的积累,使得系统架构日益腐化,短期可运行,长期难维护。技术债开始滚雪球,形成“代码越多,质量越差,修改越难,新代码越多”的恶性循环。最终,整个系统可能变得无人能够完全理解,每一次改动都如履薄冰。


AI代码的浪潮也猛烈冲击着开源世界的协作伦理。


许多知名开源项目维护者不堪其扰。


2023年,cURL创始人丹尼尔·斯坦伯格(Daniel Stenberg)因无力处理如潮水般用AI生成的、质量低劣的漏洞报告和补丁,最终关闭了运行六年的漏洞赏金计划。


另一款开源工具Ghostty的创建者米切尔·哈西莫夫(Mitchell Hashimoto)则直接明令禁止所有由AI生成的贡献,并推出了基于信任的“担保人”制度。开源的核心——开放的协作与智慧共享,正因AI的无差别、低质量贡献而面临严峻挑战。


三、答案也在AI吗?


当问题由AI制造,行业自然会问:能否再用AI解决?


我们把这个问题分别抛给一位字节的高级数据运营、一位滴滴的工程师专家和一位美国初创企业的软件工程师,他们都表示,工作中已经大量使用AI写代码,且认为未来AI写代码+AI审查是一个确定的趋势。


他们表示,目前人工检查AI代码会遇到一些难点,比如代码量大,人工需要读懂逻辑和写法,会消耗大量的时间;在安全性上有风险,可能泄露数据结构;有时会存在逻辑一致性的问题,需要手动修改。


领先的科技公司正在积极布局。


2025年12月,明星AI编程工具Cursor收购了代码审查机器人初创公司Graphite,旨在帮助工程师优先处理最敏感、风险最高的代码审查请求。


在中国,大厂也已在实践。比如阿里巴巴的“通义灵码”AI编程助手已深入数万开发者的日常,官方数据显示,每天有超过一半的有效代码评审意见已由AI自动产生。在人工评审量小幅下降的背景下,总体有效评审量(含AI意见)实现了同比翻倍。阿里甚至联合高校开源了业界首个多语言、具备存储库上下文感知的CodeReview Benchmark,试图为AI代码评审设立行业标准。


初创公司也看到了其中的巨大机遇。像Qodo这样的公司,专注于打造“AI代码生成->风险发现->自动审查->治理修复”的全流程平台,并因此获得了巨额融资,预示着代码质量管理市场即将迎来爆发。


在所有尝试中,最引人注目也最富争议的,是Anthropic的Project Glasswing。这个项目最早围绕Claude Mythos Preview展开,集结了AWS、苹果、谷歌、微软、思科、Linux基金会等科技与开源生态里的关键玩家,后来又扩大到约150个新机构,覆盖电力、水务、医疗、通信、硬件等关键基础设施领域。


它的目标不只是让AI找漏洞、修漏洞,更是提前演练一个问题:当强大的AI模型足以大规模发现软件缺陷时,网络安全行业该如何验证、披露、修补这些突然涌来的漏洞。


Mythos Preview的能力已经足够让行业紧张。Anthropic称,Project Glasswing启动后的几周里,它和大约50个合作伙伴用Mythos Preview发现了超过1万个高危或严重级别的软件漏洞。Mozilla的案例更直观:Firefox团队把Claude Mythos Preview接入安全排查流程后,在Firefox150版本中修复了271个由这轮评估发现的漏洞,其中不少是过去需要顶级安全研究员长时间推理才能发现的问题。


但问题也随之反过来了。Anthropic最初没有把Mythos Preview向普通用户开放,理由是它的网络安全能力太强,可能被滥用。


6月,Anthropic试图用两条线推进:一边推出受防护的Fable5,面向更广泛用户;一边推出限制更少的Mythos5,继续给少数安全团队使用。但几天后,美国政府以国家安全和出口管制为由要求暂停外国人访问Fable5和Mythos5,Anthropic随即关闭了所有客户对这两个模型的访问。


这让Mythos成了一个非常典型的AI时代矛盾:它可能是修补软件漏洞的利器,也可能被用来更快地发现和利用漏洞。


AI既是矛,也是盾。最有可能缓解AI代码安全问题的工具,本身也可能成为新的安全风险源。


那么,人类审查,是AI时代的软件瓶颈吗?


也许是。但它也是当下的最后一道防线。


AI提高生产力,本应让人类摆脱重复劳动。然而在当前阶段,它却也增加着工作量,而非减少。是AI跑得过快,还是人类不够快?这也许是一个需要让时间来回答的问题。


本文来自微信公众号:字母AI,作者:小金牙

AI创投日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定