近期AI圈火爆的新概念loop工程引发全网争议,本文清晰拆解其定义、价值与设计方法,帮读者快速理清这个新AI工作范式。 ## 1. 什么是AI圈的loop工程 AI Agent语境中的loop(循环)和传统编程循环本质不同:传统编程循环重复执行固定逻辑,需要提前覆盖所有可能情况,面对复杂变数易出BUG。 Agent loop重复执行「目标→行动→观察→评估→修正→下一轮行动」的流程,每一步不固定,Agent根据当前状态自主调整,只需给定目标、工具和上下文,就能通过迭代试错逼近正确答案,尤其适配开放性复杂任务。 典型的早期案例是2025年7月杰弗里发布的ralph,它通过每次迭代重置上下文到固定锚点文件解决对话污染问题,仅花费297美元就构建出一整套编程语言,核心价值是为Agent提供可持续改进的环境,而非让Agent变聪明;2026年春天Codex和Claude Code将该思路产品化推出/goal命令。 OpenClaw创始人斯坦伯格提出的loop工程更进一步,它是可长期运行、互相协作、自动调度的AI工作系统,loop本身就是基本工作单元,可由总loop监督调度多个子loop处理一类任务。 ## 2. loop工程对提示词工程的影响 斯坦伯格“设计循环提示Agent,不用再写提示词”的说法,引发loop工程是否取代提示词工程的争议。 目前提示词仍是人和Agent传递意图的核心方式,质量差的提示词放进loop也无法得到好结果,但单次提示词已经不再是Agent工作的核心。 loop工程的核心是给Agent搭建自主运行的框架,定义好目标和评估标准后,Agent可自主完成多轮迭代试错,人无需全程引导,初始提示词不用覆盖所有要求,依赖后续迭代修正即可。 ## 3. loop工程的五个核心设计组件 ### 清晰可验证的目标 很多loop失败源于目标模糊,好目标必须明确可验证,能为每一轮迭代提供校准锚点,比如“将接口响应从800毫秒降到300毫秒以下,保留现有行为,所有测试通过,输出改动说明”就是合格目标。 ### 结构化的上下文管理 上下文不限于对话历史,还包括代码状态、文档、错误日志、历史尝试等信息,多数Agent表现差根源是上下文太脏、太少或太随机。 当前主流方案包括像ralph那样每次迭代重置到固定锚点文件避免污染,2026年的loop系统则开始使用基于git的状态管理,留存每轮改动方便Agent回溯理解。 ### 和任务匹配的精简工具集 工具是Agent完成任务的必要条件,必须和任务匹配,没有对应工具Agent无法验证结果。但工具并非越多越好,过多工具会扩大决策空间,让Agent偏离目标,好的设计只保留完成任务必需的工具。 ### 分层设计的评估机制 评估是loop的灵魂,必须尽可能实现自动化,才能让loop自主运行,不需要人每轮判断。针对难以量化自动化的标准(比如代码可读性、设计美感),不需要把人完全排除,采用human-in-the-loop模式,自动化处理常规判断,人在关键节点介入做主观或高风险决策即可。 ### 多维度的停止条件 Agentloop必须设置明确停止条件,避免陷入死循环或无限迭代。一般需要设置四类停止条件:所有评估通过的成功条件;连续无改进、错误超阈值的失败条件;运行时间、成本超过预算的资源限制条件;高风险操作前等待人工确认的风险检查点。
龙虾创始人一条推文引800万人围观,全网都在吵的loop工程到底是个啥?
2026-06-11 18:14

龙虾创始人一条推文引800万人围观,全网都在吵的loop工程到底是个啥?

本文来自微信公众号:字母AI,作者:苗正,头图来自:AI生成


这两天AI圈有个词特别火,叫做loop工程。


起因是OpenClaw创始人斯坦伯格发了条X,说“你不应该再给编程Agent写提示词了。你应该设计循环来提示词你的Agent。”



然而本以为评论区会是一片欣欣向荣,大家积极讨论loop工程。


实际情况则是,这条X下面变成了一场混战。


有人质疑loop会消耗大量token,除非有无限token否则还得人工测试。有人讽刺这又是炒作新概念,“loop工程会取代harness工程”。



这条X如今已经达到了800万次浏览。


最早提出loop工程这个词的人,其实是Claude Code的创始人鲍里斯。


他曾经在一次访谈中提到,“我现在已经不给Claude Code写提示词了,那些loop替我写,由它们去判断具体要做什么修改。我的工作只有写loop。”


很显然,并不是所有人都为loop工程买账,毕竟从上一个新概念“harness”,到现在也只不过才一、两个月。


大家还没来得及消化此前的内容,现在就要去接受新知识。


但争议归争议,loop工程这个概念本身到底在说什么?它和编程里面的循环又有什么不同呢?


一、啥是loop?


先解决第一个问题,loop工程到底是个啥?


loop这个词直接翻译过来是循环。


Agent loop,其实和编程里的循环(loop)差不多。


在传统编程里,循环做的事情很明确。


比如你写一个for循环遍历数组,那么机器就会从第一个元素走到最后一个元素。编程中,循环的本质是让机器重复执行明确的指令序列。


在AI Agent的语境里,loop也是重复执行。


那么两者的区别在哪呢?


事实上,Agent里的loop并非执行“指令”,它执行的是“目标”。通过如下的一个循环,将输出的结果不断接近目标。当结果符合目标时,循环终止。


目标Goal→ 行动Action→ 观察Observation→ 评估Evaluation→ 修正Revision→下一轮行动。


这个公式里的每一步都不是固定的。


Agent需要观察当前状态,判断应该采取什么行动,执行行动后再观察结果,评估是否达到了预期,然后决定下一步怎么走。


而传统循环里,每次执行的循环,都是相同的代码逻辑。虽然你可能会处理不同的数据,但处理的方式都是固定的。


所以你就需要把所有可能的情况都考虑清楚,然后写出对应的处理逻辑。


比如碰见A情况怎么应对,B情况怎么应对,而这便是编程循环中的if和else。


但现实世界的复杂任务往往有太多变数,你不可能提前预见所有情况,这就导致出现你没有设定过的情况时,程序就会出BUG。


Agent loop的价值就在这里。


你不需要把所有情况都写死,你只需要给Agent一个目标,提供必要的工具和上下文,然后让它在loop里自己摸索。


它可能会走弯路,可能会犯错,但只要有反馈机制和评估标准,它就能在多次迭代中逐渐逼近正确答案。


这种工作方式在处理开放性任务时尤其有效。写代码、修bug、做研究、搭建产品,这些任务的共同特点是没有唯一的正确路径,需要在过程中不断调整方向。传统的程序很难应对这种不确定性,但Agent在loop里可以。


澳洲放羊大叔杰弗里·亨特利(Geoffrey Huntley)在2025年7月发布的ralph,就是一个典型的Agent loop。


它本质上是一个bash脚本,把同一个提示词文件反复输入给Agent。但它的真正创新在于纪律性,每次迭代都会重置上下文到一组固定的锚点文件,而不是让对话无限增长。


为了验证ralph的能力,杰弗里用这个方法构建了一整个编程语言,总共花了大约297美元。


这个案例说明,loop的核心价值不是让Agent变得更聪明,而是给Agent创造了一个可以持续改进的环境。


在这个环境里,Agent不需要一次就做对,它可以试错,可以从失败中学习,可以在多轮迭代中积累进展。


到了2026年春天,Codex和Claude Code都推出了/goal命令,把ralph给产品化了。这个命令会一直运行循环,直到一个验证完成。


但斯坦伯格说的loop,已经不单单是“让一个Agent反复做某个任务”那么简单了,而是把loop当成一种可以长期运行、互相协作、自动调度的AI工作系统。


具体来讲,斯坦伯格认为loop是工作的基本单位。


以前我们给AI下达的指令是帮我修一个bug、帮我写一篇文章。所有任务是一次性的,做完就结束。


但斯坦伯格说的loop,虽然也是任务的一种,不过它是一个持续运转的工作单元。比如每天检查GitHub issue,判断哪些需要修,自动分配给Agent,修完后跑测试,失败就继续改,成功就提交PR。


这里的重点不再是“修某一个bug”,而是有一个长期存在的流程在处理一类工作。


当你有了多个这样的loop在同时运行时,新的问题就出现了。谁来协调它们?谁来决定优先级?谁来检查它们的工作质量?


因此,斯坦伯格在设计loop时,已经开始用loop去监督其他loop了。


通过一个总loop负责观察全局→它发现有几个任务→分发给多个子loop→每个子loop自己跑→总loop检查它们的进度和结果。


二、提示词是输入,loop是过程


斯坦伯格的那条推文之所以引发争议,是因为它触及了一个话题。


提示词工程是不是已经过时了?


截止至今,提示词仍然是你和Agent交流意图的主要方式,它仍然需要清晰、具体、包含必要的上下文。


这么说吧,一个写得很烂的提示词,绝对不会因为你把它放进loop里,它就能突然变好了。


但单次的提示词,已经不再是Agent的核心。


原因很简单,假如你能在一开始就把所有要求说清楚,Agent只需要一次输出,就满足你的所有要求,那就再也不需要上下文了。


现实就是,你可能在看到初步结果后才发现自己遗漏了某个重要条件,或者Agent的输出虽然符合你的字面要求,但在实际使用中暴露出问题。


更关键的是,很多反馈信息在任务开始时根本不存在。


比如BUG,你只有在测试的时候才能知道。


以前你需要盯着Agent的每一次输出,判断对不对,想下一步怎么引导它。


现在你只需要设计好loop,定义清楚目标和评估标准,然后让它自己跑。


归根结底,loop工程就是给Agent加一个框架,让它知道每一轮应该看什么、做什么、怎么判断、什么时候停。


我举个例子你就懂了:


你要让Agent生成一个登录页面。


提示词工程的做法是写一个详细的提示词。“请帮我写一个登录页面。需要有用户名和密码输入框,一个登录按钮,一个忘记密码链接。样式要简洁现代,使用蓝色作为主色调。要有表单验证,用户名不能为空,密码至少8位。登录失败要显示错误提示。”


如果你的提示词写得足够好,Agent可能会生成一个看起来不错的页面。


但这个页面真的能用吗?表单验证的逻辑是否正确?在不同浏览器上显示是否正常?是否有安全漏洞?


loop工程的做法是你需要设计一整个流程。


第一步,根据需求生成页面代码。第二步,运行自动化测试,检查基本功能是否正常。第三步,启动浏览器,截图检查视觉效果。第四步,如果测试失败或者截图显示问题,分析具体是什么问题。第五步,修改代码解决问题。第六步,再次测试,重复这个过程,直到满足所有验收标准。


在这个流程里,初始的提示词可能很简单,因为你知道后面还有多轮迭代的机会。Agent不需要第一次就做对所有事情,它可以在每一轮看到具体的反馈,然后针对性地改进。


三、loop工程在设计什么


那到底该如何写一个loop工程呢?


我们需要设计5个组件。


第一个组件是目标。


这听起来是废话,但实际上很多loop失败的原因,就是目标定义得不够清晰。


“帮我优化一下”这不是一个好目标。什么叫优化?优化到什么程度算完成?有哪些约束条件?这些都不清楚。


一个好的目标应该是这样的。把这个接口的响应时间从800毫秒降到300毫秒以下。保留现有行为,所有测试必须通过。输出改动说明,列出具体做了哪些优化。


这个目标的每一部分都是可验证的。


清晰的目标实际上是给Agent提供了一个稳定的锚点,每一轮迭代都可以用这个锚点来校准。


第二个组件是上下文管理。


上下文其实包括很多东西,不只是你跟模型的对话那么简单。


代码库的当前状态、相关文档、需求说明、错误日志、测试结果、用户偏好、历史决策,以及之前几轮的尝试和结果,这些都是上下文。


很多Agent表现差,根本原因不是模型不够聪明,而是loop每一轮喂给它的上下文太脏、太少,或者太随机。


太脏是指上下文里混杂了太多无关信息,Agent需要花费大量token来处理这些噪音,反而忽略了真正重要的部分。


太少是指关键信息缺失,Agent没有足够的材料来做出正确判断。


太随机是指每一轮的上下文组织方式不一致,Agent无法建立稳定的理解模式。


前文提到的Ralph loop,它有一个很重要的创新,就是它的上下文管理系统。


它每次迭代都会重置上下文到一组固定的锚点文件,而不是让对话历史无限增长。


虽然简单,但它的确解决了上下文污染的问题。


你需要决定哪些信息应该保留,哪些应该丢弃,哪些应该总结后保留。


2026年的loop系统开始使用基于git的状态管理。每一轮的改动都会提交到git,Agent可以查看历史提交,理解之前做了什么,为什么要这么做。


第三个组件是工具。


说白了就是Agent能调用哪些工具。


巧妇难为无米之炊,工具的选择需要和任务匹配。


如果你让Agent写代码但不给它运行测试的工具,那它就无法验证代码是否正确。


但工具也不是越多越好。每增加一个工具,Agent的决策空间就变大了,它需要在更多选项中做选择。如果工具太多,Agent可能会迷失在工具的使用上,忘记了真正的目标。


好的loop设计会精心选择工具集。只提供完成任务必需的工具,每个工具都有清晰的用途和使用时机。这样Agent可以把注意力集中在任务本身,而不是工具的选择上。


第四个组件是评估。


这是loop的灵魂。没有评估,循环就会变成瞎转。


评估的关键是要自动化。


如果每一轮都需要人来判断对不对,loop就失去了自主运行的能力。所以你需要设计出可以自动执行的评估标准,让Agent能够自己判断当前状态是否满足要求。


但自动化评估也有局限。有些质量标准很难用量化的标准来判断,比如代码的可读性,设计的美感,文字的流畅度。


对于这些方面,你可能需要引入人工检查点,让人在关键节点介入评估。


AI里面有一个概念叫human-in-the-loop的。


好的loop不是把人踢出去,而是把人放在最关键的检查点上。自动化处理大部分常规判断,人负责那些需要主观判断或者风险较高的决策。


第五个组件是停止条件。


从最古老的编程开始,任何一个循环它都得具备一个退出的条件。


比如循环计数器i,每一次循环i的数值都会加1,当i的值大于规定的值时,循环就会停止。


对于Agent而言,最理想的停止条件是任务完成,但现实往往不会这么顺利。


有时候Agent会陷入死循环,反复尝试同样的方案,每次都失败,但它不知道应该放弃。有时候Agent也会持续做微小的改动,每次都有一点点改进,但永远达不到完美,不知道应该停在哪里。


所以你需要设计多种停止条件。


最直接的是成功条件,所有评估都通过,任务达标,可以停了。然后是失败条件,连续多轮没有改进,或者错误次数超过阈值,说明当前方案可能走不通,应该停下来重新思考。


还有资源限制,运行时间超过上限,成本超过预算,也应该停止。


更重要的是风险检查点。当Agent要做一些高风险操作时,比如删除数据,应该停下来等待人工确认。这些操作一旦出错代价很大,不应该完全自动化。


把这五个组件放在一起,你就得到了一个完整的loop。


本文来自微信公众号:字母AI,作者:苗正

AI创投日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定