这是硅谷一线工程师关于AI agent落地生产的一线经验分享，梳理了行业现状与核心问题，明确人与agent的协作方向。 ## 1. AI开发的三阶段演进定位软件开发AI化分为三个清晰阶段，判断自身所处阶段是落地前提。第一阶段为AI辅助阶段，AI是工具由人主导，门槛低效果明确，多数开发者处于此阶段。第二阶段为"照看AI agent"阶段，人需全程盯着修正agent的错误，并未解放双手，多数自称用agent的团队实际停在此阶段。第三阶段为AI agent后台自主运行阶段，仅需人在关键节点决策，当前Cursor已有30%的PR由AI agent全自动完成提交。从行业数据看，企业客户使用云端AI agent的比例从一年前的15%-20%升至当前的75%，自主运行已成为正在发生的现实。 ## 2. 工程师角色的结构性转变 AI生成代码速度远超人工，当下多数工程师花在代码review上的时间已经超过写代码。 AI生成代码带来了新瓶颈：验证、review成为核心工作量，且AI易生成巨型PR（mega PR），催生了「速度幻觉」，容易悄悄积累技术债。 **核心结论：AI时代工程师最核心的能力从写代码转向判断代码好坏，要快速识别AI输出是否符合需求、有无隐患。** 落地实践建议：搭建AI agent时需根据任务选适配模型，不要用单一模型承接所有任务。 ## 3. 突破40%生产力天花板的核心方向很多团队使用AI agent后，生产力提升稳定卡在40%不再增长，核心原因是同步AI agent的本质限制。同步agent要求人全程在场确认，人的注意力是整个系统的瓶颈，只是换了方式绑定人，没有真正提效。转向异步AI agent团队可破局：agent在后台并行处理任务，仅在关键节点交予人决策，agent做擅长的自动化工作，人做决策，实现真正提效。异步模式也带来新的工程难题：多agent同时修改同一代码库，合并冲突复杂，容易出现agent工作作废的情况，目前尚无成熟解法。 ## 4. 生产环境落地的核心要求：打造持久可恢复的durable agent 本地跑AI agent和部署进生产环境存在巨大鸿沟，生产级agent需要是能从失败中恢复的durable agent。生产环境中失败原因多样：API过载、服务宕机、输出格式错误等，传统全量重跑的方式浪费成本，还可能因步骤副作用引发问题。 durable agent借鉴分布式系统的checkpoint思路保存执行进度，本质是优化人参与的流程，减少对工作流的打断，适配现阶段「人在回路」的设计需求。 ## 5. AI agent落地的核心：建立分场景的信任机制 Cursor内部数据显示，AI生成代码占比达60%，内部准确率超98%，但2%的错误率在规模化后仍会引发灾难性问题。 **核心结论：信任AI agent不是全有全无的判断，需要按场景风险精细化划分，低风险可逆任务可完全自主，高风险不可逆任务要保留关键节点人工确认，这个边界会随模型能力提升动态调整。** 可观测性是AI agent生产落地最被低估的基础能力，当前AI agent领域的可观测、测试相关工具链还极不完善。对于有特殊约束的场景（比如物理硬件测试），不必要求AI完全接管，可让agent整理输出测试结果，降低人验收的成本即可。 ## 6. AI agent时代工程师的核心价值行业视角已经发生转变：从「我们想让AI agent做什么」转向「我们想让人做什么」，本质是从把AI当工具转为把AI当协作方，重新定义人的位置。现阶段AI可完成调研、写代码、提PR等大量执行工作，但**定义方向、判断合理性、做关键决策这类需要深度理解业务目标的工作，仍依赖人类完成**。对工程师的要求在新维度变高：需要更强的系统设计能力（设计agent协作方式）、判断力（识别AI输出问题）、产品感知（深度参与目标定义）。当前硅谷一线已经从讨论AI能做什么，转向务实落地，比拼实际部署进生产的AI agent成果。

2026-07-04 03:31

今天刚听完的硅谷AI 工程师实践分享：AI agent 到底怎么才算真正落地

深思圈

速览

本文来自微信公众号：深思圈，作者：Leo，原文标题：《今天刚听完的硅谷 AI 工程师实践分享：AI agent 到底怎么才算真正落地》

今晚，我在旧金山Howard Street的Inngest总部，参加了一场叫做{AI}in Production的小型聚会。主办方是Inngest，Cursor、Arcade、Vapi联合参与。清一色是在一线真正跑AI agent的工程师和创始人，一群人坐在一起，讲他们把AI部署进生产环境之后遇到的真实问题。

这种氛围让今晚的内容特别值钱。我记录了其中两位演讲者的内容，一位是Cursor的Strategic GTM Kash Yechuri，一位是Inngest的Head of DevRel Sterling Chin，讲的东西都很落地，有数据，有案例，也有坦承自己还没解决的难题。我把今晚最有共鸣的观点整理下来，也加上我自己的一些判断。

我一直有这样一个感受：真正的变化，不是从大型峰会的主题演讲里能感受到的，而是从这种小房间里工程师的真实对话里才能看到。今晚正是这样。

AI开发的三个阶段：你现在在哪里

Kash一开场就画了一条清晰的线：软件开发的AI化，正在经历三个阶段的演进。理解自己在哪个阶段，是判断下一步该怎么做的前提。

第一阶段是大家都熟悉的AI辅助阶段。你用Copilot补全代码，用Claude写文档，用ChatGPT回答技术问题。在这个阶段，AI是工具，人是主导。每次交互都是你主动发起的，AI给你一个建议，你决定要不要用。这个阶段门槛低，效果也确实好，大部分开发者都在这里待了很长时间。

第二阶段是"照看AI agent"阶段。你开始把更复杂的任务交给AI agent去做，但你不能离开电脑。它跑偏了你要拉回来，它卡住了你要推它，它做完一步你要确认一下再让它继续。这个阶段很耗精力，因为你既没有解放双手，又没有在做真正有价值的决策，你只是在"管理"一个不太可靠的系统。Kash用了一个很生动的说法：这就像在照看婴儿，你一秒都不能走神，但其实没做什么真正有意义的事。

第三阶段才是真正有意思的地方：AI agent团队在后台自主运行。你给它设一个触发条件，比如"有新的issue提交了就去分析"，然后你去做别的事。agent会在它自己的计算环境里工作几个小时甚至几天，做完了再来找你。你的角色变成了：只在最关键的决策节点上出现，其他时候放手。

我坐在台下听到这个框架的时候，第一反应是：大多数人以为自己在用AI agent，其实还停留在第二阶段。他们以为在驾驭AI，其实只是在照看一个需要不断被推动的系统。真正的agent时代，是agent可以在你不在的时候继续工作，而不是你一转身它就停下来等你。

Kash给了一组Cursor内部数据，让我印象深刻。他们现在有30%的PR是由AI agent自动完成并提交的，整个过程没有任何人工干预。一年前，企业客户中使用云端AI agent的比例大概是15%到20%，现在这个数字已经到了75%。这个增速，比我预期的还要快。这不是未来的趋势，这已经是正在发生的现实。而且这个数字不是来自初创公司，而是跨越了初创公司和大型企业的整个用户群体。

工程师的角色正在变

演讲过程中，台下举手的一幕让我印象深刻。Kash问：有多少人现在花在review代码上的时间，比花在写代码上的时间还要多？台下几乎所有人都举了手。

这不是个人感受，这是整个行业的结构性变化。AI生成代码的速度远超人工，但生成出来的结果需要人来判断对不对、合不合适、符不符合架构意图。所以review的工作量在上升，而写代码本身退居次要位置。这个变化乍一看是好事，但它带来的挑战比表面上看起来要复杂得多。

Kash提到，从token消耗的分布来看，工程师现在大量的精力都放在了"写完代码之后"的环节上：review、验证、测试、调试。这背后有一个清晰的逻辑：AI生成代码很快，但快速生成出来的东西不一定正确，也不一定能跑，也不一定符合产品意图。"写完代码"只是起点，后续的验证反而成了新的瓶颈。

随之而来的是一个具体的问题：PR在变大。AI agent一次性改动的文件越来越多，生成的PR越来越巨大，review的难度直线上升。Kash把这种PR叫做"mega PR"，他们做了一些任务拆分的尝试，但承认这只是缓解，没有从根本上解决review压力。这个问题，我觉得整个行业目前都还没有特别好的答案。

我自己对这一点有很真实的体感。用AI写代码，最大的陷阱不是AI写错了，而是AI写得太快，你根本没时间跟上它的节奏。你以为在提速，实际上在积累技术债。等某天需要修改某个地方，你会发现那段代码完全陌生，因为不是你写的，你也没有认真review过。这种"速度幻觉"是我见过很多团队都在经历的困境。

所以我认为，在AI时代，工程师最核心的能力不再是"写代码的能力"，而是"判断代码好坏的能力"。你要能快速识别AI生成的代码是否符合架构意图，是否有潜在的性能问题，是否有安全漏洞。这种判断力反而更难培养，因为你不再有机会通过大量手写代码来积累经验，但你又必须具备这种能力才能真正驾驭AI的输出。

还有一个让我觉得很实用的观察：不同的模型在不同任务上的表现差异很大。Kash提到，某些模型在做整体架构思考和大局规划上表现更好，另一些在细节执行和任务拆解上更擅长。这不是在说哪个模型更好，而是说在搭建AI agent团队的时候，你需要根据任务类型来选择合适的模型，而不是用一个模型包打天下。这种"用人所长"的思维，放到AI agent身上同样适用。

40%的生产力天花板，背后是什么

Kash分享了一个让我很感兴趣的观察：很多开发者用上AI agent之后，生产力提升会稳定在40%左右，然后停在那里不再增长了，甚至会开始对AI的输出越来越怀疑。这个"40%天花板"不是个例，是跨越很多公司都能观察到的现象。

为什么会卡在这里？Kash给出的解释是：这是同步AI agent的根本限制。所谓同步agent，就是你得在场：agent做一步，你确认一下，agent再做下一步。这种模式下，你的注意力就是整个系统最大的瓶颈。agent再快，也快不过你处理信息、做出判断的速度。你没有被解放，你只是换了一种方式被绑定。

打个比方，就像你雇了一个助理，但要求他每做一件事都来问你一次。你在不在场，决定了助理能不能动。这不叫提效，这叫换了个角度让你忙。

当你转向异步AI agent团队，情况就不一样了。agent可以在后台并行处理多个任务，你不需要全程盯着，只需要在关键节点做决策。Cursor内部就是这么实践的：AI agent自动分析issue，自动生成对应的PR，自动tag相关负责人，但最终merge PR的决定还是由工程师来做。agent做agent擅长的事，人做人擅长的事，两者配合，才是真正的提效。

但异步AI agent也带来了新的麻烦。Q&A环节，有人提到了一个非常实际的挑战：当你并行跑多个AI agent，每个都在修改同一个代码库，最后merge PR的时候，冲突会变得极其复杂，review压力成倍增加。有时候agent会因为之前的merge而进入"过时状态"，之前做的工作全都白费了。这不是小问题，这是multi-agent工作流里目前最棘手的工程难题之一。

把AI agent真正部署进生产环境

今晚第二位演讲者是Inngest的Head of DevRel Sterling Chin，他分享了一个在我看来非常关键的概念：durable agent，也就是有持久性、能从失败状态恢复的AI agent。他的核心观点是：把AI agent跑在本地是一件事，把它真正部署进生产环境是另一件事。这两件事之间，有一道很大的鸿沟。

Sterling给durable agent的定义非常简洁：一个能从失败状态恢复的agent。这听起来简单，但在生产环境里非常难做到。失败的原因千奇百怪：LLM的API超载了，某个第三方服务挂掉了，网络中断了，某个步骤的输出格式不符合预期。而传统的处理方式，是整个任务重新跑一遍。这不仅浪费时间，也浪费成本，更重要的是在某些场景下根本不可行，因为有些步骤是有副作用的，跑两遍会出问题。

我在台下看到这个demo的时候，第一反应是：这其实和分布式系统里的checkpoint机制是同一个思路，只不过保存的不是计算状态，而是AI agent的执行进度。很多软件工程里的经典难题，在AI agent时代以新的形式重新出现了。这让我觉得，那些在传统工程领域有深厚积累的人，在AI agent这个新领域会有很大的优势，因为他们见过这些问题，知道解法的方向在哪里。

从更大的视角来看，这背后是一个关于human-in-the-loop的设计哲学。人工参与不是AI agent的缺陷，而是现阶段AI能力边界的必要补充。关键问题是：你怎么把这个人工参与的过程做得不那么痛苦，不那么打断工作流，不那么让人觉得在给AI擦屁股。Sterling和Inngest的这些设计，本质上都是在回答这个问题。

让agent可信，比让agent聪明更重要

今晚让我思考最多的一个问题是：我们距离真正信任AI agent，还有多远？

Kash提到了一组数据：Cursor内部现在有60%的代码是由AI生成的，内部准确率超过98%。这个数字听起来很高，但在软件工程里，2%的错误率依然可以是灾难性的。如果你有一个每天执行一万次的任务，2%的失败率意味着每天有200次失败。这种规模下，你愿意接受吗？很多团队在小规模时觉得没问题，但规模一上来，问题就会被放大。

所以，信任AI agent不是一个全有全无的决定，而是一个基于场景、基于风险做出的精细化判断。对于低风险、可逆的任务，可以让AI agent完全自主运行。对于高风险、不可逆的任务，就需要在关键节点插入人工确认。这个度的把握，本身就是一门学问，也是工程师在AI时代需要练就的新能力。而且这个判断不是一劳永逸的，随着模型能力的提升，边界会不断移动。

我一直觉得，可观测性是AI agent进入生产环境里最被低估的基础能力。大家都在卷agent能做多复杂的任务，能解决多难的问题，但很少有人认真想过：当agent出了问题，你怎么知道哪一步出了问题？你怎么快速定位原因？你怎么防止同样的错误再次发生？这些问题，在传统软件工程里有成熟的答案，但在AI agent领域，整个生态还处于非常早期的阶段，工具链还很不完善。

Q&A环节里，有人问了一个关于测试的问题，让我觉得很有代表性。一家做IoT硬件产品的小团队说，他们最大的瓶颈就是测试，因为真实硬件在物理环境里的测试根本没办法完全交给AI来做。Kash的回答是：对于这种情况，可以让AI agent负责"返回一个测试演示"，就像给你展示这是app的当前状态，这是我测试过的几个路径，这是测试结果，然后由人来做最终的验收判断。AI agent不一定要完全接管测试，而是可以把测试结果整理好、可视化好，大幅降低人工验收的难度和时间成本。这个思路，我觉得对很多有硬件或特殊环境约束的团队都有参考价值。

我对这一切的思考

离开聚会走在旧金山街头，我脑子里一直在转一个问题：在AI agent时代，工程师的核心价值究竟是什么？

我的答案是：工程师的价值，会越来越集中在"定义问题"和"设计系统"上，而不是"解决问题"和"写代码"上。这个转变，听起来像是好事，但它对工程师的要求其实更高了，只不过高的维度变了。

今晚Kash提到了一个值得反复思考的转变：以前我们问的是"我们想让AI agent做什么"，现在更应该问的是"我们想让人做什么"。这两个问题看起来只是换了角度，背后的含义完全不同。前者把AI当工具，后者把AI当协作者，重新思考人在整个系统里的位置。这个视角的切换，是很多团队还没有真正完成的转变。

在软件开发的各个环节里，AI agent现在可以处理很多事：收集用户反馈、做市场调研、探索可能的解决方案、写代码、跑测试、生成并提交PR。但有些事情，至少在现阶段，还需要人来做：决定做什么功能，判断架构是否合理，评估输出是否符合产品意图，在关键节点做最终决策。这些事情的共同点是：它们都需要对"我们在做什么，为什么做"有深刻的理解。这种理解，不是AI能替代的。

这不是说工程师可以松口气了。恰恰相反，对工程师的要求在某些维度上变得更高了。你需要更强的系统设计能力，因为你不只是在设计代码结构，你在设计AI agent团队的协作方式。你需要更强的判断力，因为你要在海量的AI输出里快速识别哪些好、哪些有问题。你还需要更强的产品感，因为很多以前留给工程实现的空间，现在被AI填满了，工程师需要更深地参与"我们到底要做什么"这个层面的讨论。

今晚这场聚会让我想到一件事：硅谷的工程师文化里有一种务实的态度，叫"show me the code"。但现在，这个文化正在悄悄演变成"show me the agent"。大家不是在聊AI可以做什么，而是在聊"我已经把AI部署进生产环境了，遇到了什么问题，怎么解决的"。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP