Anthropic意外泄露的57MB源代码揭示了其Agent操作系统的工程深度，为创业者提供了清晰的竞争边界与未开发机会窗口。 ## 1. Claude Code的工程深度远超预期 - 泄露的51.2万行代码显示其非简单工具包装，而是包含800行状态机、四层上下文压缩等复杂设计的Agent操作系统底座 - 流式工具并行执行、多模式运行与递归计费等特性体现平台级复杂度，直接复刻几乎不可能 ## 2. 战略方向信号：KAIROS与PROACTIVE - **KAIROS**隐藏模式显示Anthropic押注后台自主运行的持久化Agent，需状态持久化/任务恢复等配套设计 - **PROACTIVE**实验功能预示交互范式翻转：AI主动发起行动，人仅需审批，两者叠加定义未来Agent形态 ## 3. 创业者三大机会窗口 - **训练环境**：当前RL沙箱等基础设施仍处手工作坊阶段，与模型能力存在严重供需错配 - **垂直技能**：法律/医疗等行业工作流知识无法被通用框架替代，Harvey等案例已验证其商业价值 - **独立评估**：第三方审计、合规检查等产品因独立性要求形成天然壁垒，适合高客单价商业模式 ## 4. 中国本土生态的特殊机遇 - 中美工具链差异（飞书/钉钉vs美国SaaS）要求完全重设计，豆包/Qwen等模型上构建本土Harness层是独立赛道 - 中国企业身位差距小于硅谷创业者，但需避免简单复制，需深度适配中国商业场景

2026-04-01 10:18

Anthropic "开源"了一份Agent Infra 创业的工具书

硅基立场

速览

本文来自微信公众号：硅基立场，作者：骆轶航，原文标题：《Anthropic "开源"了一份 Agent Infra 创业的工具书》

这可能是Anthropic在工程能力上与外界最信息对称的一次。它对Anthropic的伤害不大，对创业者的启发不小。

2026年3月30日，Anthropic的工程师在发布npm包时犯了一个重复的错误：没在.npmignore中排除source map文件。于是，57MB的cli.js.map指向了R2存储桶，51.2万行TypeScript源代码，1906个未经混淆的源文件，在数小时内被镜像至GitHub。它们被fork了数万次，永久扩散。

这不是官方开源，但效果等同。Claude Code四年工程迭代的家底，一夜之间成了公共财产。

喜欢动手但不太爱动脑子的AI builder都摩拳擦掌，希望复刻一个Claude Code，这基本是痴心妄想。而对方兴未艾的Agent Infra赛道的创业者来说，这份被意外开源的代码库，则是一份工具书，一份创业指导白皮书。

它第一次让外界看清Anthropic的工程边界——做了什么，做到了什么程度；以及没做什么，为创业者留了哪些白。

Claude Code还是被低估了

Claude Code已经这么牛了。但泄露的代码告诉我们：它还是被低估了。

许多人认为Claude Code不过是“模型+提示词+工具调用”的轻量级包装，创业公司用几个月就能搭出MVP，进军AI编程赛道。

这次代码泄露的一开始，很多开发者也跃跃欲试，意图复制一个Claude Code。但很快，当他们仔细研究之后，发现泄露的代码是一剂清醒剂。

Claude Code不是Claude的CLI工具，而是Anthropic的Agent操作系统底座。这么说吧，Claude Code不是Anthropic Agent底座衍生出来的编程产品，它就是底座本身，只是直接以产品化的方式对外公开了。

AI Coding as an Infrastructure。

这与绝大多数做AI编程的创业公司甚至大厂的逻辑已经完全不同了。

这次泄露的Claude Code源码，query.ts是核心查询循环，800多行的状态机，处理7种消息类型。其中，有三个工程细节，可以说明这个系统的真实重量。

其一，四层上下文压缩。呈递进机制，优先保持粒度，必要时才牺牲细节，而不是对话太长就截断——这是很多已经很能打的国产模型/Agent仍然存在的疏漏。这说明长任务、长对话是Anthropic押注的核心场景：Agent要连续工作数小时甚至数天，上下文管理就是命门。

其二，流式工具并行执行。模型生成和工具调用真正并行，而不是排队。它优化的是Agent同时做很多事的吞吐量，而不是让人等得更短的响应速度。

其三，多模式运行与递归计费。代码中存在交互式、嵌入式、持久后台三种运行模式，嵌套调用有独立的成本追踪，计费精细到子调用级别。这是一个平台级的复杂度，一个工具本身做不出这种复杂度，它体现了Anthropic商业模式的精确度。

最近“Harness”概念大行其道，越来越普遍的共识是：Harness是“最薄的包装”，Anthropic自己也这么说。

但有没有可能，Anthropic之前一直在忽悠开发者和创业者？直到这次代码被意外开源了？

泄露代码显示的是另一回事：数万行代码、数百个工程决策、复杂的状态机管理、完整的容错与恢复基础设施。

生产级的Harness是系统工程，是Agent Infrastructure，不是一两个工具的组合。低估了这一点，与Anthropic比竞争壁垒，就是耗子给猫当三陪。

但这里并非没有创业者的机会。

两个战略信号

泄露的Claude Code代码中，散落着17个Feature Flag——实验性功能开关。

其中大部分是产品探索，比如BUDDY（电子宠物）、VOICE_MODE（语音交互）、BRIDGE_MODE（IDE桥接），它们方向各异，优先级不高。

但有两个代码泄露的战略信号不容忽视：

其一是KAIROS。它是持久后台代理，藏在隐藏模式里，已部分被实现。这意味着Anthropic认为：Agent的终局形态不是你坐在电脑前跟它对话——而是它在后台自主运行，你在不在场没关系，它干它的活。它不是交互工具，而是后台基础设施。它决定了整个Harness的设计方向：状态持久化、任务恢复、长时间运行的资源管理，全都是为“无人值守”准备的。

第二个是PROACTIVE。即主动式AI，它还在实验阶段。传统的Agent模式是人下指令，AI执行，即Manus模式。而PROACTIVE要反过来：AI主动发起行动，人负责审批。这是交互范式的根本翻转。

如果说KAIROS定义了Agent“在哪里跑”，而PROACTIVE定义了Agent“谁说了算”。

这两个方向叠加起来，是一幅清晰的图景：Agent不等你说话，自己决定干什么，在后台持续执行，你只需要偶尔看一眼、批准或否决。

对创业者来说，这是一个时间窗口的信号。Anthropic大抵是要沿着这个战略方向进化它的Agent的，但现在没有成型的产品。在Anthropic发大招之前，创业公司在垂直领域——如零售、保险、财务等领域建立先发优势的窗口还开着。只不过，这个窗口以月为计算，得抓紧。

边界之外的创业机会

这份被泄露代码最大的价值，不是告诉你Anthropic有多强——这你本来就该知道。它的价值是第一次让你看清它的疆域——哪些是已经筑好的内核，哪些是尚未涉足的荒野。

已筑好的内核，不要碰，那不是创业公司轻易能做的。

你看，它的通用编排有query.ts的800行状态机撑着，基础工具接入被MCP协议标准化了，它的上下文压缩是四层工程护城河，而成本追踪精细到递归子调用。这些层级的工程深度已经极高。

在这些领域创业，等于正面撞Anthropic的操作系统底座，或者成为它的生态附庸，不，连附庸都当不上。

而Anthropic还没做的，是Agent Infra创业者的机会。

训练环境是确定性最高的方向（这也是之前林俊旸推文中预测的重要的创业赛道）。

泄露的代码中，taskBudget与maxTurns是任务限制系统的雏形，但仅此而已，它们没有完善的沙箱，也没有专业的rollout基础设施。

那为什么Anthropic自己不做？因为它的核心利益在模型层，环境层不是它的优先级，就像英伟达不会自己去建数据中心一样。

而Agentic RL的最大瓶颈恰恰不是算法，是环境质量。专业RL沙箱、代码执行环境、浏览器模拟器。当下，在环境质量的领域创业是对的：模型能力刚过Agent可用的门槛，但训练的基础设施还停留在手工作坊阶段，供需错配最严重的窗口，就是现在。

垂直行业技能同样是重要的方向。

Claude Code的commands.ts提供了通用的技能加载框架，但框架和行业知识是两层完全不同的工程。

Harvey做法律Agent，Abridge做医疗Agent，它们的壁垒不是调用能力，而是对行业工作流的深度理解：法律文书的引用格式、医疗记录的合规要求、金融模型的风控逻辑，这些东西不是通用框架能解决的。

还是那个问题，为什么Anthropic自己不做？显然组织能力不匹配。Anthropic的工程师懂怎么写状态机，但不懂医疗合规流程，这种知识不是招几个行业顾问能补上的。而通用底座越成熟，垂直技能的价值反而越高。

这个创业赛道的本质，其实是垂直领域的Agent，它的核心能力是把垂直商业领域的专业知识Skills化，可以成为独立的Agent公司，也可以把专业商业领域的数据层“打包”成Skills，适配其它的Agent。最近国内很多互联网O2O垂直领域的巨头似乎都在这么搞。

独立评估是另一个可行的创业方向。

泄露的Claude Code代码有logEvent，Agent每一步操作都会被记录在案，哪个工具被调用了、花了多少token、执行结果是什么，全部写进日志。它像一个记录问题的小黑本。

但银行不会信任被审计方自己的工具做合规检查，医院也不会让AI自己评估自己的诊断质量。

第三方行为审计、跨模型成本归因、合规检查引擎：这些产品的价值不在技术难度，而在独立性和垂直领域的专业性本身。Agent越自主，缰绳（Harness）的价格越贵，但缰绳不能由被驾驭者自己打造，必须由第三方掌握。

这个方向天然指向大客户、高客单价，商业模式适合独立上市，不适合被收购——因为被收购意味着失去独立性，而独立性恰恰是产品的全部价值。

中国本土的Harness生态，也是一个方向。

这是一个非常“中国特色”的创业方向。Anthropic的工程架构与中国的AI生态无关，中国Agent创业公司与字节跳动、阿里巴巴的身位差距，远小于硅谷创业公司与Anthropic的差距——这意味着Anthropic做了的和没做的，中国创业者都有机会。

但“复制一个中国版Claude Code”是没有意义的。

中国企业的工具链——飞书文档、钉钉审批、企微客户管理，跟美国SaaS生态在数据结构和工作流层面完全不同。这意味着在工具定义层，中国创业者需要重新设计，适配已有的工具和商业模式。最近飞书和钉钉都开放了自己的CLI给整个生态，是一个不错的启发和信号。

在豆包、Qwen和Kimi之上构建本土Harness层，集成中国原生的工具链，这是一个独立的生态工程。Anthropic的手掌心覆盖不到，但也没有任何模板可抄。

这可能是Anthropic在工程能力上与外界最信息对称的一次。创业者第一次能看到Agent操作系统底座的实际边界，不用猜测，不用推演。

但看到边界，和在边界之外建出东西，是两件完全不同的事。

它对Anthropic的伤害不大，对创业者的启发不小。天底下竟还有这等好事。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP