本文来自微信公众号: 张鹏科技商业观察 ,作者:张鹏,原文标题:《Harness 还是 Environment? 这波 Agent 创业还有护城河吗?》
Context engineering、harness engineering、environment engineering……AI圈,概念的更新速度多少有些「通词膨胀」了。
回忆一下这令人眩晕的加速度吧:
2022年底ChatGPT发布至2024年,我们研究的都还是prompt engineering,四处探寻那句能「点石成金」的咒语,通过优化每次的指令来获得更好的模型输出。
2025年6月,Shopify CEO Tobi Lütke提出context engineering,并得到Andrej Karpathy的赞同,为模型提供任务所需的恰到好处的上下文信息,开始成为新的焦点。
五个月后,Anthropic在报告《Effective harnesses for long-running agents》中带来了harness的概念,通过上下文管理、工具调用、进程管理等方法提升agent的运行时间和成功率。八个月后,今年2月,HashiCorp联合创始人Mitchell Hashimoto提出了harness engineering的概念,OpenAI和Anthropic都紧接着发布了各自在harness方面的研究进展和实验报告,harness engineering成为了agent圈的新共识。
当本土开发者还在热切地讨论harness engineering时,没出一个月,硅谷已经传来一种截然不同的声音——「Harness将死,未来属于environment engineering。」
Weilun Chen指出,底层大模型正在以API的形式疯狂吞噬掉开发者熬夜写出的编排逻辑;同时,以Anthropic MCP和Claude Code为代表的实践证明:只要把系统的「环境接口」重写成对Agent友好的结构化形态,模型根本不需要复杂的harness就能展现出惊人的能力。
这些不断被制造出来的新词汇和新概念,核心是在探讨一个更根本的问题:在这个AI Native时代,一家新兴公司的价值应该如何构建?能做的事有很多,关键的是该做什么?所谓「该做」,就是有长期价值、能形成壁垒,甚至具有未来价值扩展性的事。
虽然这些概念的快速变化搞得人很烦,但尝试理解和构建一种未来的「世界观」确实是有意义的。「世界观」决定了宝贵的资源——创始人的时间、团队的精力、投资人的资本——会被投向何方。
所以,咱们尝试花一些时间把它梳理清楚些。
正在发生的未来,与一个危险的错觉
对Harness的唱衰,并非空穴来风。
向下看,底层模型正在无情地「基建化」。
此前,开发者需要写几百行代码来实现重试机制、JSON格式约束、长文本的上下文压缩。而今天,OpenAI的结构化输出、上下文缓存、原生工具调用甚至推理长度控制,直接把这些复杂的机制变成了API请求里的几个参数。
那些仅仅封装了「Prompt链」和「基础执行循环」的套壳框架,确实正在被底层模型无情地降维打击。
向上看,environment engineering展现出了可观的杠杆率。
Anthropic的一个实验证明了这一点:他们将Claude放在一个高度结构化的数字环境里,提供有限且被清晰定义的API工具。结果发现,在一个友好的环境中,agent的表现远超在真实终端的混乱环境中的发挥。这揭示了,很多时候,agent表现不佳,并非「脑子」不够好,而是「世界」太难懂。重塑环境接口(修路)的收益,看上去大于打磨驾驭工程(训练司机)。
如果推演到此为止,得出的结论就会是:拥抱模型厂API,放弃自研控制层,转去做环境工程的建设。
但harness engineering真的没有长期价值吗?
概率系统与确定性商业的矛盾
将harness engineering类比为「终将被吞掉的中间件」,对了一部分。但如果因此推导出现实的商业世界只需要「模型API+环境」,则是极其危险的技术线性外推。它忽略了大模型时代最根本的工程悖论:
大语言模型本质上是一个基于概率的非确定性系统,而真实的商业世界要求的却是确定性结果。
企业需要可观测性,需要知道某个agent为什么做了这个决策,它的推理轨迹能否被完整回溯审计,需要成本与路由网关,需要把握如何在几十个模型间动态路由,保证既聪明又省钱。需要系统级容错,当API不稳定或产生幻觉时,系统能够进行确定性的干预并闭环。
这些商业世界的铁律,注定了harness的本质从来不是「封装逻辑的中间件」,而是复杂系统的「控制平面」与「策略层」。
API可以吞噬「机制」,但替代不了「策略」。
API可以包揽工具该怎么调用、记忆格式该怎么存储、基础推理与行动循环怎么跑。但API无法决定:什么时候该触发降级方案、如何在有限的Token预算下动态切分任务、多个不同能力的Agent发生决策冲突时该听谁的、以及如何保证输出结果符合特定行业的合规性。
在概率与确定性的鸿沟之间,harness不仅是agent的方向盘,更是防止AI系统在商业环境中造成灾难的「安全气囊与刹车」。
环境工程的「乌托邦边界」
那么,沿着environment engineering一路狂奔,把全世界重构成「agent友好」的接口,是一门好生意吗?
在代码开发、本地文件管理等「天然数字化且高度结构化」的场景中,收益是可观的。这也是为什么Coding是进展最快的原因。
然而,一旦进入传统商业场景,环境工程就会撞上一堵名为「隐性知识与遗留系统」的叹息之墙。
企业协作、供应链流转、法律审查中的海量判断依据,散落在非结构化的邮件、历史长文本甚至人类专家的直觉中,它们无法被简单地改写成完美的API。
想象一下,让AI优化一家工厂的供应链。它需要理解的「环境」可能包括:一套运行了20年的、文档不全的ERP系统;几位老师傅基于「听机器声音」判断故障的经验;以及分散在无数Excel和邮件里的、充满歧义的订单备注。将这个混乱的现实「重构」成AI友好的API接口,其成本和难度是劝退工程师和客户的。
同时,商业世界具有极强的惯性。大多数企业难以为了让agent跑得更顺畅,就轻易重构耗资千万、运行了十年的核心业务系统。
这意味着,环境工程在商业落地上存在明显的局限性——它是局部的、垂直的,很难形成统一的标准平台。绝大多数时候,不是世界去适应agent,而是agent必须学会在充满噪音、混乱且非结构化的现实泥沼中生存。这会再次将聚光灯拉回到harness engineering系统架构能力上。
AI产业价值阶段推演
如果harness的价值不会清零,环境工程极具价值也有挑战和局限,那么AI创业公司应该如何看待产业的演进,并找到自己的位置?价值链的重构可能会分三个阶段上演。
第一阶段:模型为王(2023-2025)
这是AI的「蛮荒时代」。每次模型的SOTA直接定义了AI能力的天花板。
在这个阶段,价值公式极为简单:
AI应用能力≈模型能力
OpenAI、Anthropic等模型厂手握最核心的生产资料,拥有最高的行业话语权。每次模型更新就会抹平一大片应用层的探索和建设。
第二阶段:Harness为王(2025-2028,大幕方启)
我们正处在这一阶段的初期。随着基础模型的能力趋于稳定,业界痛苦地发现:仅靠调用强大的模型API,无法直接构建出达到企业级可用标准的Agent。任务成功率的瓶颈凸显,成本和安全问题成为重要卡点。
此时,价值公式演变为:
AI应用能力=模型能力×Harness效率
这个乘数效应是惊人的。一个基座模型,在粗糙的脚本驱动下,面对复杂研发任务的成功率可能只有20%;但在一个为特定任务深度优化的harness驱动下,成功率可以跃升至70%以上。
此前被扣上「套壳产品」帽子的Devin、Cursor和Manus这类项目的核心壁垒,正在于那个被看低的「壳」,今天我们所说的harness engineering。它们不拥有独家的超级模型,但是构建起了一套harness系统,包含了精密的任务规划与分解、代码执行与沙箱、持续学习与反思、以及针对性的错误修正逻辑。
在这个阶段,竞争的焦点会从「谁的模型更强」转向「谁的控制层更优」。
第三阶段:数据与环境为王(2028+,终局之战)
当模型成为水电煤,各种高阶的Harness系统也逐渐成熟并趋于标准化后,终极护城河才会成形。届时,AI的能力公式将会演进为:
AI终极能力=(模型能力×Harness效率)(数据×环境)
Environment engineering,其实是在提前押注第三阶段。最强大的AI系统,将是那些能将模型和控制层深度嵌入到真实业务场景中,并重构了环境交互接口的公司。
Agent在被重构的真实环境中执行任务,会产生独一无二的交互数据,成功的捷径、失败的教训、人类的微调修正。这些闭环数据反过来不仅可以微调模型,还能够优化Harness的决策逻辑,从而形成一个自我进化的闭环。
例如微软的Microsoft 365 Copilot,依托Office全场景生态,打通并掌控了个人与企业最核心的业务环境——从Outlook邮件、Teams会话到文档、表格、会议等全链路数据与操作接口。Copilot底层的orchestrator,本质就是面向办公场景的标准化Harness系统,在高度结构化的真实环境中调度模型能力,完成总结、撰写、分析、执行等复杂任务。
用户每一次采纳、修改、反馈,都会形成高价值的闭环数据,持续反哺orchestrator策略优化与模型迭代,让(模型×Harness)与(数据×环境)形成指数级放大的正向循环。这正是第三阶段核心竞争力的完整体现。
届时,拥有海量真实场景和闭环数据流的企业,将拥有指数级优势。
由此,如果你的团队还在花大量时间手写基础的prompt、基础的记忆存储,就把这些交给模型厂吧。不要在注定会成为基础设施的地方建名存实亡的壁垒。
Agent时代的下一场战役,既不单纯属于逐渐基建化的大模型API,也不完全属于理想化的环境接口重构。
当下及未来的2~3年,做深特定领域的Harness系统架构会是一个有价值的创业切入点。
在云计算时代,AWS吞掉了很多底层技术,但提供可观测性的Datadog和Snowflake依然长成了千亿巨头,因为他们掌握着企业的「运营控制层」。这同样是AI时代的财富密码。
Environment engineering是长期目标,而不是短期捷径。提前布局,但不要幻想能一步到位。今天构建的强大harness,正是你未来撬动环境改造、构建数据飞轮的唯一杠杆。
可做的事很多,该做什么才是更关键的。在新概念的浪潮中形成你自己的原生世界观,然后,扎进去,把该干的干到最好,可能就是今天最值得做的事情。
