本文来自微信公众号: 硅基立场 ,作者:骆轶航,原文标题:《Anthropic "开源"了一份 Agent Infra 创业的工具书》
这可能是Anthropic在工程能力上与外界最信息对称的一次。它对Anthropic的伤害不大,对创业者的启发不小。
2026年3月30日,Anthropic的工程师在发布npm包时犯了一个重复的错误:没在.npmignore中排除source map文件。于是,57MB的cli.js.map指向了R2存储桶,51.2万行TypeScript源代码,1906个未经混淆的源文件,在数小时内被镜像至GitHub。它们被fork了数万次,永久扩散。
这不是官方开源,但效果等同。Claude Code四年工程迭代的家底,一夜之间成了公共财产。
喜欢动手但不太爱动脑子的AI builder都摩拳擦掌,希望复刻一个Claude Code,这基本是痴心妄想。而对方兴未艾的Agent Infra赛道的创业者来说,这份被意外开源的代码库,则是一份工具书,一份创业指导白皮书。
它第一次让外界看清Anthropic的工程边界——做了什么,做到了什么程度;以及没做什么,为创业者留了哪些白。
Claude Code还是被低估了
Claude Code已经这么牛了。但泄露的代码告诉我们:它还是被低估了。
许多人认为Claude Code不过是“模型+提示词+工具调用”的轻量级包装,创业公司用几个月就能搭出MVP,进军AI编程赛道。
这次代码泄露的一开始,很多开发者也跃跃欲试,意图复制一个Claude Code。但很快,当他们仔细研究之后,发现泄露的代码是一剂清醒剂。
Claude Code不是Claude的CLI工具,而是Anthropic的Agent操作系统底座。这么说吧,Claude Code不是Anthropic Agent底座衍生出来的编程产品,它就是底座本身,只是直接以产品化的方式对外公开了。
AI Coding as an Infrastructure。
这与绝大多数做AI编程的创业公司甚至大厂的逻辑已经完全不同了。
这次泄露的Claude Code源码,query.ts是核心查询循环,800多行的状态机,处理7种消息类型。其中,有三个工程细节,可以说明这个系统的真实重量。
其一,四层上下文压缩。呈递进机制,优先保持粒度,必要时才牺牲细节,而不是对话太长就截断——这是很多已经很能打的国产模型/Agent仍然存在的疏漏。这说明长任务、长对话是Anthropic押注的核心场景:Agent要连续工作数小时甚至数天,上下文管理就是命门。
其二,流式工具并行执行。模型生成和工具调用真正并行,而不是排队。它优化的是Agent同时做很多事的吞吐量,而不是让人等得更短的响应速度。
其三,多模式运行与递归计费。代码中存在交互式、嵌入式、持久后台三种运行模式,嵌套调用有独立的成本追踪,计费精细到子调用级别。这是一个平台级的复杂度,一个工具本身做不出这种复杂度,它体现了Anthropic商业模式的精确度。
最近“Harness”概念大行其道,越来越普遍的共识是:Harness是“最薄的包装”,Anthropic自己也这么说。
但有没有可能,Anthropic之前一直在忽悠开发者和创业者?直到这次代码被意外开源了?
泄露代码显示的是另一回事:数万行代码、数百个工程决策、复杂的状态机管理、完整的容错与恢复基础设施。
生产级的Harness是系统工程,是Agent Infrastructure,不是一两个工具的组合。低估了这一点,与Anthropic比竞争壁垒,就是耗子给猫当三陪。
但这里并非没有创业者的机会。
两个战略信号
泄露的Claude Code代码中,散落着17个Feature Flag——实验性功能开关。
其中大部分是产品探索,比如BUDDY(电子宠物)、VOICE_MODE(语音交互)、BRIDGE_MODE(IDE桥接),它们方向各异,优先级不高。
但有两个代码泄露的战略信号不容忽视:
其一是KAIROS。它是持久后台代理,藏在隐藏模式里,已部分被实现。这意味着Anthropic认为:Agent的终局形态不是你坐在电脑前跟它对话——而是它在后台自主运行,你在不在场没关系,它干它的活。它不是交互工具,而是后台基础设施。它决定了整个Harness的设计方向:状态持久化、任务恢复、长时间运行的资源管理,全都是为“无人值守”准备的。
第二个是PROACTIVE。即主动式AI,它还在实验阶段。传统的Agent模式是人下指令,AI执行,即Manus模式。而PROACTIVE要反过来:AI主动发起行动,人负责审批。这是交互范式的根本翻转。
如果说KAIROS定义了Agent“在哪里跑”,而PROACTIVE定义了Agent“谁说了算”。
这两个方向叠加起来,是一幅清晰的图景:Agent不等你说话,自己决定干什么,在后台持续执行,你只需要偶尔看一眼、批准或否决。
对创业者来说,这是一个时间窗口的信号。Anthropic大抵是要沿着这个战略方向进化它的Agent的,但现在没有成型的产品。在Anthropic发大招之前,创业公司在垂直领域——如零售、保险、财务等领域建立先发优势的窗口还开着。只不过,这个窗口以月为计算,得抓紧。
边界之外的创业机会
这份被泄露代码最大的价值,不是告诉你Anthropic有多强——这你本来就该知道。它的价值是第一次让你看清它的疆域——哪些是已经筑好的内核,哪些是尚未涉足的荒野。
已筑好的内核,不要碰,那不是创业公司轻易能做的。
你看,它的通用编排有query.ts的800行状态机撑着,基础工具接入被MCP协议标准化了,它的上下文压缩是四层工程护城河,而成本追踪精细到递归子调用。这些层级的工程深度已经极高。
在这些领域创业,等于正面撞Anthropic的操作系统底座,或者成为它的生态附庸,不,连附庸都当不上。
而Anthropic还没做的,是Agent Infra创业者的机会。
训练环境是确定性最高的方向(这也是之前林俊旸推文中预测的重要的创业赛道)。
泄露的代码中,taskBudget与maxTurns是任务限制系统的雏形,但仅此而已,它们没有完善的沙箱,也没有专业的rollout基础设施。
那为什么Anthropic自己不做?因为它的核心利益在模型层,环境层不是它的优先级,就像英伟达不会自己去建数据中心一样。
而Agentic RL的最大瓶颈恰恰不是算法,是环境质量。专业RL沙箱、代码执行环境、浏览器模拟器。当下,在环境质量的领域创业是对的:模型能力刚过Agent可用的门槛,但训练的基础设施还停留在手工作坊阶段,供需错配最严重的窗口,就是现在。
垂直行业技能同样是重要的方向。
Claude Code的commands.ts提供了通用的技能加载框架,但框架和行业知识是两层完全不同的工程。
Harvey做法律Agent,Abridge做医疗Agent,它们的壁垒不是调用能力,而是对行业工作流的深度理解:法律文书的引用格式、医疗记录的合规要求、金融模型的风控逻辑,这些东西不是通用框架能解决的。
还是那个问题,为什么Anthropic自己不做?显然组织能力不匹配。Anthropic的工程师懂怎么写状态机,但不懂医疗合规流程,这种知识不是招几个行业顾问能补上的。而通用底座越成熟,垂直技能的价值反而越高。
这个创业赛道的本质,其实是垂直领域的Agent,它的核心能力是把垂直商业领域的专业知识Skills化,可以成为独立的Agent公司,也可以把专业商业领域的数据层“打包”成Skills,适配其它的Agent。最近国内很多互联网O2O垂直领域的巨头似乎都在这么搞。
独立评估是另一个可行的创业方向。
泄露的Claude Code代码有logEvent,Agent每一步操作都会被记录在案,哪个工具被调用了、花了多少token、执行结果是什么,全部写进日志。它像一个记录问题的小黑本。
但银行不会信任被审计方自己的工具做合规检查,医院也不会让AI自己评估自己的诊断质量。
第三方行为审计、跨模型成本归因、合规检查引擎:这些产品的价值不在技术难度,而在独立性和垂直领域的专业性本身。Agent越自主,缰绳(Harness)的价格越贵,但缰绳不能由被驾驭者自己打造,必须由第三方掌握。
这个方向天然指向大客户、高客单价,商业模式适合独立上市,不适合被收购——因为被收购意味着失去独立性,而独立性恰恰是产品的全部价值。
中国本土的Harness生态,也是一个方向。
这是一个非常“中国特色”的创业方向。Anthropic的工程架构与中国的AI生态无关,中国Agent创业公司与字节跳动、阿里巴巴的身位差距,远小于硅谷创业公司与Anthropic的差距——这意味着Anthropic做了的和没做的,中国创业者都有机会。
但“复制一个中国版Claude Code”是没有意义的。
中国企业的工具链——飞书文档、钉钉审批、企微客户管理,跟美国SaaS生态在数据结构和工作流层面完全不同。这意味着在工具定义层,中国创业者需要重新设计,适配已有的工具和商业模式。最近飞书和钉钉都开放了自己的CLI给整个生态,是一个不错的启发和信号。
在豆包、Qwen和Kimi之上构建本土Harness层,集成中国原生的工具链,这是一个独立的生态工程。Anthropic的手掌心覆盖不到,但也没有任何模板可抄。
这可能是Anthropic在工程能力上与外界最信息对称的一次。创业者第一次能看到Agent操作系统底座的实际边界,不用猜测,不用推演。
但看到边界,和在边界之外建出东西,是两件完全不同的事。
它对Anthropic的伤害不大,对创业者的启发不小。天底下竟还有这等好事。
