随着基模能力成熟,AI竞争焦点转向围绕模型构建的整套系统(Harness Engineering),其核心价值在于捕获高质量执行轨迹形成数据飞轮,决定Agent上限的已非模型本身而是系统设计。 ## 1. Harness Engineering的崛起背景 - **能力瓶颈外移**:2025年Claude Opus 4.5发布标志模型能力过线,系统层成为新瓶颈,顶尖团队转向优化模型外围系统。 - **三次工程演进**:从Prompt Engineering(指令优化)、Context Engineering(信息管理)到Harness Engineering(系统构建),核心逻辑是模型能力达标后瓶颈外移。 ## 2. Harness的6大核心组件 1. **记忆与上下文管理**:动态控制Agent可见信息,如OpenClaw通过分层加载(CLAUDE.md三级文件系统)解决上下文衰减问题。 2. **工具与技能**:精简工具库是关键,Claude Code仅保留20个核心工具,Vercel团队精简后性能提升显著。 3. **编排与协调**:复杂任务需拆分为research→plan→execute→verify独立阶段,避免上下文污染(如Boris Cherny的"plan mode"规则)。 4. **基础设施与保障**:沙箱(如Daytona)、权限管理(Oasis Security)确保安全稳定运行。 5. **反馈闭环**:自动验证机制可提升产出质量2-3倍(如Boris Cherny的ralph-wiggum插件)。 ## 3. 关键设计原则与实战技巧 - **信息层**:渐进式披露(如OpenAI放弃AGENTS.md全量加载)、控制上下文利用率<60%(大海捞针测试显示1M token时模型性能下降30-70%)。 - **执行层**:人应介入事前规划而非事后审核,一行糟糕计划可衍生数百行错误代码。 - **反馈层**:构建自动化校准机制(如Autoresearch的闭环迭代),错误经验需永久记录(如CLAUDE.md持续更新)。 ## 4. 模型与Harness的共生关系 - **训练即部署**:Agentic RL中模型与Harness共同优化(如Cursor训练Composer 1.5时模拟真实环境),环境质量决定模型表现。 - **能力内化循环**:Harness创新(如planning)被模型吸收后催生新Harness设计,Claude Code代码平均保质期仅2个月。 ## 5. 创业机会与未来趋势 - **代表性公司**:Edra(上下文管理,3000万美元A轮)、Temporal(任务编排,50亿美元估值)、Braintrust(评估平台,8亿美元估值)。 - **下一阶段**:Coordination Engineering将解决多Agent协同问题,类比"小龙虾版飞书"的管理看板与协作平台。
Harness is the New Dataset:模型智能提升的下一个关键方向
2026-03-26 20:14

Harness is the New Dataset:模型智能提升的下一个关键方向

本文来自微信公众号: 海外独角兽 ,作者:Celia、Siqi,编辑:Siqi


最近,harness engineering又成了继prompt engineering、context engineering之后新一代的buzzword。


这背后对应着一个越来越清晰的变化:当基模能力逐渐成熟后,现在真正决定agent上限的,已经不是模型本身,而是围绕模型搭建起来的整套系统。


尤其对于模型公司来说,谁更早把harness跑顺,谁就更早有机会捕获高质量的执行轨迹;谁能持续捕获这些轨迹,谁就更有可能形成更强的数据飞轮。


Deepmind的Staff Engineer Philipp Schmid甚至直接给出了一个判断:“The Harness is the Dataset.Competitive advantage is now the trajectories your harness captures(Harness本身就是数据集。现在真正的竞争优势,在于你的harness能捕获到怎样的执行轨迹).”


所以我们最近深入研究了一下这个概念,梳理了Anthropic、OpenAI、Google等一线团队的实践经验,也调研了一些身边顶级agentic engineering的经验感受,这里分享一些关键的方法论和思考。


01.


为什么Harness Engineering开始变得重要?


“Harness”一词来自马术,本意是马具的意思,放在这里非常贴切:模型就像一匹野马,同样是一股很强但不稳定的力量。人类用马具来限定马匹的行为、掌控前进方向,而harness就是人类驾驭模型能力的一套外围系统。


从时间线看,AI工程方法已经经历了三次演进:



•Prompt engineering(2022-2024):关注如何表达需求,重点是打磨单次对话里的指令,研究怎么提问(e.g添加身份、场景、目的等细节)、给出示例,从而让模型理解任务,更稳定地给出想要的结果;


•Context engineering(2025):关注怎么提供恰到好处的信息。随着任务变复杂,AI需要在有限的context window下了解所有的背景资料。所以,如何获取、压缩和组织上下文,成了新的工程实践重点;


•Harness engineering(2026):关注如何“构建系统”,这里的“系统”可以简单理解为模型周围让它真正有用的所有部分:运行环境、工具调用、记忆系统、评估与回滚机制等等,相当于一个完整的运行环境+管控系统,能让Agent可靠、安全地完成任务。


如果要下一个定义的话,Agent=LLM+harness,如果说模型决定了要做什么,Harness决定了模型能看到什么、能用什么工具,以及失败时该怎么办。


这几层演进背后的共同逻辑是:一旦模型能力过线,瓶颈就会开始外移。


而这一次外移的一个标志性事件,是2025年11月Claude Opus 4.5的发布。它意味着模型的agentic能力到了一个tipping point,以至于“用好模型的能力”,开始比“提高模型的能力”,更加重要。也就是说,智力本身不再是瓶颈,瓶颈转移到了系统层。


我们团队最近在湾区交流下来,一个很直接的感受是,顶尖的工程师在那个节点其实都受到了不小的冲击。有人认真评估后说:我不用再招人了。(不过很有意思的是,当时市场热议的则是Gemini 3,真正认真讨论Opus 4.5的人反而没那么多。但现在回头看,Opus 4.5带来的影响,比Gemini 3更加深远。)


02.


Harness的6个关键组件


关于harness的组件目前在工程实践中还没有绝对共识,但综合目前看到的不同实践,我们认为它大致包括了以下6个部分:


1.Memory&Context management(记忆与上下文管理):这一层解决的是“在当前时刻,Agent应该看到什么信息”。常见做法包括上下文裁剪、压缩、按需检索,以及外部状态存储等。


2.Tools&skills(工具与技能):负责扩展Agent的行动能力。工具提供可调用的外部能力,skills提供可复用的任务方法。


3.Orchestration&Coordination(编排与协调):也就是编排整套任务流程,协调每个agent的分工,决定何时规划、何时执行、何时交接,让复杂任务能被拆开、推进并收敛。


4.Infra&Guardrails(基础设施与保障):负责提供运行环境和边界条件,包括沙箱、权限控制、失败恢复和安全护栏等,确保Agent能在真实环境中安全、稳定地运行。


5.Evaluation&Verification(评估与验证):对于很多复杂任务来说,决定最终成效的往往不是第一次生成,而是有没有验证闭环。所以很多harness内置一套测试、检查和反馈机制,让Agent能自行验证自己的工作,并在发现问题后及时修正。


6.Tracing&Observability(追踪与观测):负责还原Agent的行为过程,让整个黑箱变得尽量透明可见,例如提供执行轨迹、日志、监控和成本分析等能力。只有当这些过程是可见的,系统才是可调试、可优化、可管理的。


从完成一项真实任务的视角看,这6个组件其实对应着一条很清晰的链路:先准备信息,再推动执行,最后复盘结果。所以顺着这条逻辑,它们又可以进一步归成3层:信息层、执行层、反馈层。



举个具体的例子,Openclaw的爆火很大程度上就是harness engineering的一次胜利:它并不依赖模型能力,而是完全靠harness的设计创造出了aha monument。Openclaw的核心亮点就是几个工程组件:


•Gateway负责破壁,它把WhatsApp、Discord等社交软件统一对接给了模型,让小龙虾能像朋友一样出没在任意窗口。


•内置Skills库提供了一个趁手的百宝箱,给了它丰富的能力集合。


•记忆机制让它能持久地积累经验、不断进化。


•Heartbeat补齐了AI的“主观能动性”,让它能定时、自发地醒来干活。


•Soul.md等身份文件则是画龙点睛,给这些冷冰冰的代码注入了一个鲜活的人格。



每个组件单看都不复杂,但当这些微小的创新被巧妙地糅合在一起时,跨平台的存在感、主动发起对话的意愿、持续进化的记忆——这些模型本身没有的生命力就出现了。


03.


Harness的设计原则


这里我们尝试着总结一些Harness engineering的核心原则。它们不仅仅适用于agentic engineer,也适用于每一个想用好Claude Code/Codex的知识工作者(如果你还没用上的话,还是强烈推荐大家试用一下,彻底改变工作范式!)


总体上,今天Agent最大的瓶颈还是上下文长度的限制,所以harness的构建基本都围绕这条线展开的。而具体到信息层、执行层和反馈层,因为工程和任务目标的差异,又有着不同的设计原则:


信息层:帮Agent任务做资源准备


信息层解决的问题听起来很简单:给agent提供它需要的信息。但在实践中,这却是最容易犯错的地方,且错误原因往往不是给得太少,而是给得太多。因为模型存在context decay(上下文衰减)的问题,随着上下文不断变长,模型并不是线性地“知道得更多”,而是更容易被无关噪音分散注意力,导致对关键信息点的利用效率下降。


因此,信息层设计的核心原则是:精准,比求全更重要。落实到工程上,通常会对应到下面几种路径:


Trick 1:渐进式披露


简单来说,就是把信息做成“分层加载”的系统,让模型在不同阶段只接触当下需要的那一层,而不是一次性把所有信息都塞给AI。


比如,OpenAI就曾试着用一个巨大的AGENTS.md把所有规则写全,但后来发现并不可行。Context资源是极其稀缺的,一个巨大的指导文件会占据AI的脑容量,让它忽视真正重要的信息。


所以现在业内的最佳实践是通过文件系统来做分层披露,以Claude code为例,它把核心信息做了三层分级:


•Level 1 CLAUDE.md:这一层只放最关键、最常用的元规则。它更像一个总入口,用来告诉模型:这个项目最基本的情况是什么,应该遵循哪些原则,不同类型的任务大概该去哪里找资料。


•Level 2:SKILL.md:这一层更像按需调用的小型能力包。只有在特定任务出现时,模型才会去加载对应的skill,学习这项任务的做法。


•Level 3:reference、supporting files、脚本等:到这一层,模型接触的就不再是抽象原则,而是完成当前任务真正需要的细节:比如说明文档、操作示例、架构信息、日志、配置文件、测试命令,或者直接运行脚本后拿到的结果。


本质上,渐进式披露就是控制信息的出场顺序,让模型的注意力始终集中在当前最关键的1%信息上。


Trick 2:Tools越少而精越好


这一点其实相当反直觉:随着模型能力的提升,它对外部工具的依赖应当是递减的,而不是越加越多。


Agent的强大不在于工具箱里有多少把扳手,而在于它是否拥有几把完美的“万能扳手”,以及如何高效地组合它们。与之相对的,过于复杂的工具是模型幻觉的温床。一个常见失败模式就是工具集越加越多,导致agent陷入决策瘫痪。


Claude Code目前有大约20个工具,即使如此,他们团队也一直在审视是否真的需要所有这些工具,并且在非常谨慎地增加新工具。


Vercel团队他们最初给agent配备了涵盖搜索、代码、文件、API的完整工具库,结果表现很差;精简到只保留核心工具之后,速度和可靠性都显著提升。


Trick 3:找到Context window利用率的“甜蜜区间”


很多独立的工程实践都得出了一个相同的发现:当上下文利用率超过一个区间之后,性能就会开始下降。也就是说,给agent塞太多历史记忆和背景信息,不会让它更强,只会让它更糊涂。


具体的sweet spot根据模型、context window、任务类型的不同会有差异,比如下图是一个最新的大海捞针测试,我们可以看到,当输入token数量从256K逐渐拉满到1M时,几乎所有主流大模型的表现都出现了明显下滑。



表现最好的模型(Opus 4.6系列),长上下文下还能维持七成的检索命中率,表现没那么稳的模型(GPT-5.4、Gemini 3.1 Pro),命中率会直接掉到三成。


至于为什么有效的context window通常没有大家想象中那么长?一个核心原因是Attention的“稀疏性”。随着context变长,模型的注意力会被摊薄到更多位置上。它虽然看见了更多token,但未必还能稳定地把注意力放在最关键的那几个点上。如果关键的bug埋在中间,又有大量无关噪音干扰,它获得的权重可能不足以触发模型的警醒。


所以很多顶级工程师会频繁进行上下文压缩,把context window利用率控制在60%以下。


Trick 4:利用subagent做context隔离


当主agent的context开始变重时,把子任务分配给独立的subagent也是一个可行的方法。


每个subagent都在更小、更干净的context里完成自己的任务,少受无关信息干扰。等它们各自产出结果后,再回到主agent统一汇总和编排。


Claude Code负责人Boris Cherny把这套方法叫做context firewall。当遇到复杂任务时,他会直接让主agent“use subagents”,把看日志、查代码、搜文档这些事情并行拆开,主线程自己只做两件事:调度,以及收口。


执行层:给Agent一套执行规划


如果说信息层关心的是“给agent什么信息”,那么执行层关心的就是“让agent怎么做事”。这一层最常见的一个问题,是任务结构本身设计得不对。


Trick 5:把研究、计划、执行、验证分开


我们在学习top AI labs的实践经验时,会发现一个很普遍的做法,他们会刻意把一条任务链拆开,分成四步:research→plan→execute→verify,每个阶段是单独的session,有单独的context,而不是期待它一气呵成。


这背后同样是因为,Agent脑容量有限,把四个阶段压进同一个context,本身会造成一些不必要的context污染。所以用尽量用更多算力,完成更简明清晰的任务。


举个例子,假设我们要给产品增加一个身份验证系统,最好不要直接下达一个指令:“给我做一个身份验证系统。”更好的做法是:


(1)先开一个research session,专门研究各种可能的实现方案


(2)确定最终采用的行动方案(可以你自己来,也可以让另一个Agent决定,Claude code团队中有一个人的工作流就是:先让一个Claude写计划,然后再启动第二个Claude,站在staff engineer的视角来做评审)


(3)开一个全新的session,专门负责执行这个具体方案


做其它类型的任务也是一样,先让Agent研究最佳实践,再列出详细的执行计划,最后执行,效果往往更好。


Boris Cherny的CLAUDE.md里就有一条明确的规则:


Enter plan mode for ANY non-trivial task(3+steps or architectural decisions).If something goes sideways,STOP and re-plan immediately—don't keep pushing.


(只要任务不算简单,比如步骤超过3个,或者牵涉到架构层面的判断,就先做规划。一旦发现哪里不对,就立刻停下来重新做一遍规划,不要硬往下推。)


他在26年1月还又做了一层强化:用户接受计划之后,Claude Code会自动清空context,让执行阶段从一个干净的起点开始。他的观察是,执行阶段如果继续背着研究阶段留下的大量上下文,很容易被噪音干扰;反过来,把研究和执行切开,反而更能保证计划被准确落实。



Trick 6:人最该介入的地方,不是事后审核,而是事前规划


绝大多数人类用户只喜欢验收结果,而不重视前期的规划设计,但实际上,人恰恰应该把精力从事后的code review,尽量前移到research和plan这两个杠杆更高的环节。因为一行糟糕的代码,影响的可能只是一行;一行糟糕的计划,往往会长出几百行糟糕的代码。


越是上游环节,带来的单位时间的影响越大。


反馈层:Agent的复利飞轮


前两层决定了agent能做什么,反馈层决定的是系统随时间能变得多好。这是三层里最容易被忽视、也最能产生复利效应的一层。反馈层的核心逻辑,其实就是harness engineering这个概念最原始的定义。Mitchell Hashimoto在自己的blog中是这么写的:


Anytime you find an agent makes a mistake,you take the time to engineer a solution such that the agent never makes that mistake again.


这背后是一种工程纪律:每一次失败都不是终点,而是一次让系统永久变好的机会。他的做法是,每一次真实翻车的问题,都会被他尽量记到AGENTS.md里。包括Claude Code团队也会全员共同维护一个CLAUDE.md,只要Claude做错了一件事,就把这条经验补进去,让它下次不要再犯同样的错误。


Trick 7:构建反馈闭环


在Harness Engineering中,最能产生复利效应的投入,就是为Agent构建一套自动化的反馈与校准机制。


Boris Cherny分享过一个数据:只要给Claude提供有效的验证手段,其最终产出的质量通常能提升2-3倍。他的做法包括:


•任务完成后,提醒另一个agent验证结果,或者开启stop hook自发校验。


•用ralph-wiggum插件把整个流程改成“自动迭代模式”,让Claude不断做、不断验、不过就继续,直到满足完成条件。


•让Claude自己打开浏览器、测试UI、反复迭代直到UX过关。


Karpathy最近提出的autoresearch的思路同样很有启发。


Autoresearch的重点不是让AI一次性想出最好的答案,而是让AI进入一个可控闭环:自主提出idea→做实验→观察实验结果→保留有效策略、丢掉无效分支→反思后继续提出不一样的改进策略→如此反复循环。


这其中,重点不在于单次输出能有多惊艳,而在于能不能给它设计一个能不断筛选、充分迭代的回路。而这类回路不仅仅是适用于research,也适用于大多数提高转化率、点击率、分数指标的场合。


04.


模型vs harness,究竟是怎样一个关系?


关于harness,所有人都在好奇的一个问题是:模型会吃掉脚手架吗?harness当下创造的价值多大程度上会被模型厂自己做掉?例如Claude Code和Codex,本质上其实就是模型公司的竞争已经从单纯的模型层,转向了“模型+harness”的整体。


这个问题很难在今天直接给出一个明确答案,因为模型和agent实践的变化相当迅速。但可以确定的是,模型和harness的耦合程度是比多数人想象得要深的。


训练即部署


Agent能力的上限,越来越由环境质量决定,而不只是模型本身,所以在agentic RL的训练逻辑里,模型和harness从一开始就不是分开设计的。


如果没有参与过agent开发,那么大多数人对于“开发一个agent”这件事的第一反应可能是:先训练一个能力过关的模型,再给这个模型接工具、接工作流等等。也就是说,模型是主体,harness是后装件。


但agentic RL的训练逻辑和这个直觉正好相反。普通chatbot的RLHF是单轮的,奖励信号密集,反馈直接。Agentic RL则非常不同,它涉及到:


•多轮、长链路、带工具调用(且一次rollout可能调用上百次工具)


•动作空间极大


•奖励信号非常稀疏,复杂任务可能1000次尝试才成功一次


•很依赖真实环境中的反馈,比如测试有没有通过、代码跑没跑起来、lint报没报错


……


这也意味着,训练效果在很大程度上取决于“训练场设计得好不好,像不像真实世界”。模型在训练阶段看到什么,往往就是它上线之后真正要面对什么。它在训练时用的是同一套工具、同一种终端、同一类沙盒,接受的也是同一类反馈。


比如,Cursor在训练Composer 1.5时,用的几乎就是一套面向真实用户服务的coding环境。它会并发跑数十万个沙盒,让模型在里面反复试:先搜什么,读哪些文件,改多少代码,什么时候该停下来做验证。


在这个过程中,他们发现模型自发涌现了很多能力:


•它开始学会在复杂代码库里做更深入的搜索


•会顺手修掉linter错误


•会自己补单元测试,再执行验证


•也会从一开始动不动大改一片,慢慢转向先多读、少乱改


Windsurf在训练SWE-1.5时,表达得更直接。他们在技术博客里写道:


“We believe that the quality of the coding environments in RL tasks is the most important factor for downstream model performance.”


(我们认为,在RL过程中,coding环境本身的质量,对模型最终表现的影响是最大的。)


“Our vision is to co-optimize models and harness:we repeatedly dogfooded the model,noticed issues with the harness,made adjustments to tools and prompts,and then re-trained the model on the updated harness.”


(我们的思路是把模型和harness当成一个整体来共同优化:一边反复使用模型,一边暴露harness中的问题,再去调整工具和prompt,最后基于新的harness继续训练模型。)


Harness的很多能力,在快速被模型吸收


理解了“训练即部署”这件事,就能理解harness为什么是一个奇特的行业:它一边创造价值,一边把自己的能力源源不断地输送进模型本身。


现在模型公司都在把“模型+harness”当成一个整体来优化。很多原本属于harness的能力,已经被模型逐渐内生化,比如tool search、programmatic tool use、compaction/summarization、多步工具调用策略等。这件事通常是这么发生的:


•模型团队和社区用户在前线摸索,试出哪些方法真的有效;


•随后训练团队把这些模式拿去做post-tarining,


•在这一过程中,模型开始把这些能力慢慢内化,一部分原本必须靠harness强行维持的能力,开始变成模型自己的能力;


•新的harness又被重新设计出来支持新的模型能力...


•如此循环往复。


如今的很多harness能力,比如planning、self-verification,也都在公开采访里被透露过,可能会成为未来后训练的候选方向。


Claude Code负责人Boris Cherny也说过,Claude Code的harness在不断被重写,里面每行代码的保质期可能也就2个月。


Harness即数据


Deepmind的Staff Engineer Philipp Schmid有一个金句:“The Harness is the Dataset.Competitive advantage is now the trajectories your harness captures(Harness本身就是数据集。现在真正的竞争优势,在于你的harness能捕获到怎样的执行轨迹).”


现在真正有价值的数据,不再只是静态语料,还包括了agent在具体业务流程中跑出来的执行轨迹:它看到了什么信息,使用了什么工具,做了什么决策,哪一步容易出错,什么反馈会让它变得更好。


在这种情况下,harness不再只是模型外面的脚手架,而是模型能力生成的土壤,土壤的质量,会一定程度上决定和反哺智能的生长。


以Anthropic为例,它在harness上的探索比OpenAI领先了一段时间,但就是这几个月的窗口期给了它巨大的机会。


现在市场的情况是:即使目前的模型水平两家已经基本打平了,但大多数人依然在用Claude Code。


同时,模型和应用的竞争也呈现了一种很有意思的态势,头部的模型公司在端到端做harness,而应用公司也越来越多开始自己训模型。


我们发现现在湾区已经有很多大的AI应用公司(远不只是coding方向)在搭建自己的continuous learning平台,基于自己的harness和业务数据,做开源模型的RL,并且已经开始从头部AI labs迁移模型用量。


他们认为,在很多垂直场景里,今天的开源模型能力已经够用了。接下来的差距,未必来自谁有更好的模型,而是来自谁能围绕具体任务,把模型、任务结构、反馈闭环和后训练结合得更好,在特定场景里做出成本更低、效果更好的系统。


这种竞争格局,可能会成为接下来几年AI竞争里最有趣的看点之一。


05.


创业公司的机会


随着harness的重要性逐渐提升,我们相信这个领域也会有一些创业公司的机会,以下整理了一些比较有代表性的,势头非常好的项目,他们最近也都拿到了知名机构的大额融资。


信息层


今天企业应用AI的最大瓶颈之一,是agent没有充分的背景信息,所以怎么以agent为中心抓取出企业里原本分散的、隐性的知识,会是一个新的创业机会。我们尚不确定它最终能不能成长为一个大的独立赛道,但这些玩家起码是2B巨头们很好的收购标的。


代表公司:Edra


Edra把自己定位为“Context for Agents at Scale”,专注于把企业里分散的流程知识变成agent可执行的动态上下文,会自动读取企业现有的tickets、logs、emails、chat histories等数据,然后并行运行数千个智能体来探索这些数据、模拟决策并综合得出反向推理流程,还原公司真实的做事流程,再整理成一套agent可以复用的playbooks。官方slogan是“Edra learns how your business operates.Then automates it.”


今年3月,公司完成了约3000万美元A轮融资,Sequoia领投。


执行层


方向1:Workflow orchestration/durable execution


代表公司:Temporal


Temporal是做Durable Execution的底层infra,简单讲就是让很长、很复杂、很容易失败的任务,依然能稳定跑完。中间哪怕服务器挂了、网络断了、任务等了三天,它也能记住执行到哪一步,然后从断点继续。


未来随着Agent需要完成越来越复杂,长时的任务,尤其是当未来成千上万个Agent要互相通信和交易时,对状态管理与失败恢复的要求会越来越高。这种分布式系统的运维非常复杂,而Temporal在这方面有深厚的技术积累和很强的先发优势,所以签下了OpenAI、Replit、Netflix、Stripe、Datadog、Snapchat、JPMorgan等很多大客户。


26年2月,公司完成了3亿美元D轮融资,a16z领投,估值50亿美元。


方向2:Security/Governance


代表公司:Oasis Security


Oasis是面向agentic enterprise的权限管理平台。它想解决的问题是:现在企业里越来越多去访问系统、调用数据的,是AI agent。但很多公司并不清楚这些“数字身份”到底有多少、分别在做什么、权限是不是开得太大、出了问题又该找谁负责。Oasis就希望帮企业建立一套安全管理系统,让agent能拿到完成任务所必要的权限,但同时又不产生过多风险,并且让整个过程可以被追踪和控制。


26年3月,完成1.2亿美元B轮融资,Craft Ventures领投,Sequoia、Accel等跟投,估值7亿美元。


方向3:Sandbox


代表公司:Daytona


Daytona做的是agent的沙箱基础设施。它和E2B的区别在于,E2B更像“给agent一个安全的执行盒子”,Daytona更像“给agent一台可长期使用的电脑”。


至于为什么这个节点需要Daytona这类沙箱?核心是因为最近这一波产品,比如Claude Code、Codex,把新的agent产品形态带火了,ai开始需要真的像员工一样有一个workspace持续工作,就会催生一层专门的沙箱基础设施,这个环境不是一次性跑完就销毁,而是stateful的,能让agent展开更长周期、更复杂的工作流。


2026年2月,公司完成2400万美元A轮融资,FirstMark领投,Pace、Upfront、Datadog、Figma Ventures等跟投。


反馈层


Evaluation&Obervability也是我们相对看好的一层,原因有三点:


1.企业需要一层独立的质量控制面板,通过它看到真实调用链路、比较不同模型和版本。(虽然OpenAI和Anthropic的企业级平台也都在内置eval、trace的能力,且未来有一天也可能支持接入第三方模型,但对企业来说,底层模型和评测体系如果都出自同一家,始终会有顾虑,所以它相对不容易被模型厂吃掉)


2.这是当前AI企业的刚需痛点,且未来随着Agentic层的复杂度变高,Agent完成的任务变长,对observability&evaluation的要求也会越来越高、越来越精细。


3.这一层通常会深度嵌入企业的AI工作流。它不只是一个看板,而是会进入数据采集、评分标准、版本发布和回归测试流程。接进去之后,替换成本往往不低。


代表公司:Braintrust


•产品:


定位是一个给AI产品团队用的AI observability/evaluation平台。产品可以简单理解成三步:


(1)看清过程。Braintrust会把AI应用在生产环境中的请求记录成traces,帮助团队看到一次调用里具体发生了什么,包括用户输入、模型输出、中间步骤、延迟,以及token和成本等信息,从而定位问题到底出在哪一层。


(2)判断好坏。团队可以用人工标注、规则或LLM scorer对结果做评分,判断回答质量。Braintrust同时支持离线实验和线上打分,让团队既能在发布前测,也能在真实流量里持续监控。


(3)持续优化:把线上真实出现的问题沉淀成测试集,用来比较不同prompt、模型等产生的不同效果,帮助团队方便地调试和打磨产品。


•融资:


26年2月,完成8000万美元B轮融资,ICONIQ领投,a16z、Greylock、Elad Gil、Basecase等跟投,估值8亿美元。


06.


What's Next?


如果把prompt engineering、context engineering和harness engineering放在一起看,它们其实很像一个初级员工的成长过程。


最开始,你只能和他做简单问答;再往后,你可以把完整的业务背景交给他,让他独立完成一轮深入调研;再往后,你开始给他工具、权限和反馈机制,让他自己拆任务、调工具,甚至带着几个subagents一起干活。


那我们不禁在想,再下一个范式会是什么?


在人类现实职场中,大部分人都会有相对明确的career path:从一名初级员工,逐渐积累经验,甚至升级为一个高管,从执行者变成规划者,带领几十个下属完成一个高度复杂的项目。


如果沿着人类员工的经验做一个自然推演,那么下一阶段Agents需要达到的,大概也是协调无数agent/人类节点共同完成复杂任务。


我们或许可以暂且叫做——Coordination Engineering。


OpenAI的工程负责人和产品设计师在1月底的一期播客采访里,也多次提到了他们在思考multi-agent networks。


“我不方便讲太多roadmap,不过有一个挺值得思考的问题是:一旦进入multi-agent世界,复杂度会迅速上升,那你怎么才能管理这一切?用户怎么才能始终知道每个agent在做什么、执行了哪些动作、流程推进到哪一步,以及中间哪些地方需要自己介入、授权或纠偏?”


所以从这个角度看,下一代AI产品未必是一个更聪明的小龙虾,而更像一个小龙虾版飞书,本质是一个有效的监工看板+一个能让各种节点有效协作的im平台。


最终这四个层级叠加起来,可能就构成了Agentic engineering的终极范式。它们之间不是一个替代关系,而是一个包含关系,智能的水位涨上来,“控制面"就开始不断上移:


•L1解决问答质量

•L2解决认知边界

•L3解决执行闭环

•L4解决组织协同



再往终极推演呢?一切似乎就只剩下了intention engineering,人的价值只剩下了“设定目标函数”,其余AI都可自行包揽。


到那时候再回头看,所谓的白领工作,可能真的是人类历史走过的一段弯路。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP