2026-02-23 01:27

Claude Code如何突破白领工业革命

未尽研究

本文来自微信公众号：未尽研究，作者：未尽研究

从元旦到新年，中国和美国的AI实验室，密集发布了开源和闭源模型。从K2到Gemini3.1，每家都会对比与竞争对手的评测分数的对比，所传达的信息非常一致：我要么最牛，要么正在最牛的路上。

与此同时，前沿模型之间的评测分数更为接近，无论从时间上还是分数上，它们之间的差异性日益缩小，模型正在商品化，智能正在商品化，用户在模型之间做出选择，越来越没有意义。

中国与美国AI之间竞争的重点，已经不再是模型评测的重点，不再完全是打榜的分数，而是实际应用所创造的价值。

而且各模型公布的评测分数，其可比性并不令人信服。未尽研究梳理了中国与美国所有大模型发布的评测分数，尽管精确到小数点，我们发现它们所引用的竞争对手的分数，来源并不透明，也不一致。

在大模型的实验室评测结果，与实际应用中的结果之间，存在着巨大的差距。为什么Claude模型的评测，在评测分数上被大厂和小龙们超越，但它的企业服务收入，却是中国所大厂和大模型企业的收入的总和？这意味着中国前沿AI实验室的“高分低能”？还是它们的增长空间很大？

智能体>大模型

典型的Agent，有三层结构：

其中的模型层（Models），是一个基础大模型（LLM），提供推理和生成能力，类似CPU；

代理执行层（Agent Harness）负责工具调用、I/O、状态管理，像一个操作系统，决定模型能不能真的“动手”；

技能层（Skills）是领域化、可复用的能力与工作流，例如：如何修改Excel、调API、调度任务、修一个真实bug等。

这说明智能体能力并不等于模型能力，可复用的技能是新的扩展（scaling）维度，2026年的竞争重点，不只是谁模型更大，而是谁的智能体系统更工程化。

所以，AGI并不是一个什么问题都能回答的超级大模型，现在更接近现实的AGI形态，是知行合一的，它有认知能力，执行能力，长期约束、现实反馈闭环，等等。而Claude Code/Codex/Gemini CLI/Cursor/Devin这一类系统，第一次把这四个要素放进同一个系统里。

整个行业已经不再孤立地评估AI模型本身，而是把它们视为自治智能体内部的引擎——这些系统可以连续运行数小时，进行成千上万次工具调用，编写并执行代码，操控浏览器，并与企业软件交互。每一百万token的成本效应，会在这成千上万次调用中被不断放大。在这种规模下，每百万输入token是15美元还是3美元，或者如中国开源模型的颠覆性杀价，不再只是小幅差异，而可能是决定性的变革。

最近Claude Sonnet 4.6发布，成本为Clause Opus 4.6的五分之一，百万token的上下文窗口，可以在单个请求中容纳整个代码库、冗长的商业合约或数十篇研究论文；它操作电脑达到了人类水平；在自动收货机的评测中，它能在激烈的市场竞争和“长期主义”中实现业绩翻倍。

除了前端开发的码农，这次发抖的可能是金融分析师们。Excel版Claude插件现已支持MCP连接器，让Claude可以与分析师日常使用的其他工具和数据来源（例如S&P Global、LSEG、Daloopa、PitchBook、Moody's和FactSet）协同工作——Claude从电子表格外部提取上下文信息，而无需离开Excel。此功能适用于Pro、Max、Team和Enterprise套餐。

元旦与春节之间，中国与美国AI实验室的智能体竞争，正在把AI应用推向一个重大拐点。中国这里接连推出了Kimi2.5、GLM 5、M2.5、Seed2.0、Qwen3.5，主打智能体和实际应用能力。而美国则接连推出了GPT-5.3 Codex,Clause Opus和Sonnet 4.6、以及Gmini3.1。智谱和Minimax成为最先上市的两家AI大模型企业，中国市场对智能体概念的高涨热情，正在将其市值推向空前的亢奋。Anthropic以3800亿美元的估值融资300亿美元，OpenAI以8500亿美元的估值融资逾千亿美元，最近又传出月之暗面正以100亿美元的估值进行新一轮融资，这些投资者对头部原生AI企业的热情，正在映射至中国率先上市的大模型企业。

从元旦到春节以来的这股迅猛的潮流，包括软件市场的波动和围绕科技巨头的焦虑，是由Anthropic引发的。

Claude Code在硅谷已经成为一种文化现象，它代表了过去一年中的两个重要趋势，即氛围编程(vibe coding)和智能体AI（Agentic AI)。编程是一项具备通用性的技术，通过智能体日益丰富的生态，向其他知识工作领域迅速扩展。

Claude Code，AI能吃掉软件吗

去年夏天，当马克·扎克伯格开始在硅谷大肆挖人时，大笔金钱也疯狂砸向Anthropic员工，其中许多工程师如果跳槽，可以轻易拿到到少五千万美元的薪水。但是绝大多数人甚至懒得回应。

当时，Claude Code刚刚推出。它是一个命令行AI编程智能体，让开发者可以直接在终端将编程任务委托给Claude，很快让人嗅到了AGI的气息。基于Claude Code推出的Cowork，开始真正掀起白领工业革命，并且在市场上引发焦虑的动荡，带有明显的颠覆式创新效应。

Cowork首先引发了“AI吃掉软件”市场恐惧。那些SaaS软件公司，过去的几年是资本市场上的宠儿，它们对企业的工具、工作流程和协作机制进行编程，然后通过云服务的方式交付，以席位的方式卖给企业。但是代理式的软件能自动化地实现这些功能，并且开始替代企业白领员工操作软件和相关工具。SaaS软件公司，行动快的，将与紧随AI原生企业一同用AI吃掉软件，行动慢的，将被吃掉，或者沦为智能体的基础设施。

它带来的另外一个效应，是对科技巨头巨额资本支出的进一步质疑。今年以来，微软、谷歌、亚马逊、Meta等的资本支出都增加了一倍。但是Anthropic这样的初创企业迅速向巨头迈进，中国开源AI的更强有力的挑战，都令投资者对于这些巨头能否成为最终的赢家信心不足。

Claude Code发布于2025年5月，到去年12月份，年化收入即超过12亿美元，今年1月份年化收入翻倍，达到了25亿美元。也就是说，它已经是一款月收入超过2亿美元的AI原生产品，超过了中国所有AI原生产品目前收入的总和。

Claude Code的周活跃用户数自2026年以来也翻了一番。最近的一项分析估计,全球所有GitHub公共提交中有4%是由Claude Code编写的，这个比例亦是一个月前的两倍。

Claude Code的企业订阅自2026年初以来增长了四倍,企业使用已占Claude Code总收入的一半以上。越来越多企业愿意投资AI，很大程度上是因为以Claude Code为代表的编程智能体，其架构日益完善，并且在向企业的部署中，逐步打破了信任的壁垒，开始创造经济价值。

2025年上半年，Anthropic的企业服务年化收入即超过OpenAI，目前已经巩固了企业和开发者首选智能平台的地位。Claude年度支出超过10万美元的客户数量(以年化收入计算)在过去一年中增长了7倍。从单一用例(API、Claude Code或Claude for Work)开始使用Claude的企业,正在将集成扩展到整个组织。两年前,只有十几家客户的年化支出超过100万美元，如今这一数字超过500家。财富10强中有8家现已成为Claude客户。

Claude Code代表着智能编程的新时代,从根本上改变了团队构建软件的方式。Claude在编程方面差异化的竞争力,也正在开启其他新的工作类别:金融和数据分析、销售、网络安全、科学发现等等。

Claude Code是自ChatGPT以来发布的最成功产品，也是智能体发展的一个新的里程碑。下面这个SkillsBench研究表明，在真实世界任务中，可复用技能和执行结构，能够系统性地提升智能体的表现，其效果足以部分替代模型规模本身。Claude大模型在刷榜的总体分数中不及OpenAI和Gemin等，甚至被一些中国开源模型胜出，但是它在企业服务中却表现出最强的执行能力，并且赢得了企业的信任，足以让它在最终的Agent表现中胜出，这在Claude Code（Opus 4.5）中表现尤其明显。

前沿模型的性能正在趋于一致，在Chatbot Arena上，排名第一的模型与排名第十的模型之间的差距，在一年内从11.9%缩小到5.4%。因此，“模型选择”的重要性远不及工作流程+评估+数据。

Cowork:AI从"工具"变成"同事"

2026年，Anthropic进入爆发期，推出了30多款产品和功能,包括Cowork,成为要“吃掉”传统软件的AI软件。

Cowork将Claude Code的工程能力扩展到更广泛的知识工作任务范围，包含11个开源插件,让客户能够将Claude转变为特定角色或团队的专家,如销售、法务或财务。它还把Anthropic的业务扩展到医疗保健和生命科学领域,Claude for Enterprise现已可供在HIPAA（健康保险流通与责任法案）框架下运营的组织使用。

而且Claude Code的能力还在通过智能体生态，迅速繁衍、泛化。发布两周前发布的Claude Opus 4.6，能够驱动管理整个类别实际工作的智能体,以专业水准生成文档、电子表格和演示文稿。Opus 4.6是GDPval-AA基准测试中的全球领先模型,该测试衡量AI的有经济价值知识工作的性能，体现在金融、法律和其他领域。

所有这些，让Anthropic的G轮的估值，达到了3800亿美元，融资300亿美元真金白银。有了这笔钱，加上可能在年底IPO，将助力其基础设施迅速扩张。

Claude仍是唯一在全球三大云巨头平台上向客户提供服务的前沿AI模型：亚马逊云服务(Bedrock)、谷歌云(Vertex AI)和微软Azure(Foundry)；而且在多样化的AI硬件上训练和运行：AWS Trainium、谷歌TPU和英伟达GPU。

这些意味着Claude可以将工作负载匹配到最适合的芯片。这种平台多样性为Claude的客户完成关键工作提供了更好的性能和更强的韧性。

从这个产品矩阵可以看到，Anthropic正在以AI编程为突破口，切入到最重要的白领行业，以及所有SaaS软件的领域，包括那些几十年来几乎所有白领打工族使用的工具，如Excel，以及最多用户使用的上网工具，如Chrome。

宪法AI的可信之路

在OpenAI与谷歌DeepMind之间的竞争主导的硅谷，Anthropic仅用短短几年即走出了一条AGI之路，从大模型的安全入手、专注于编程和智能体，扩展生态，深耕企业服务。从AI编程这一通用的功能突破，延伸至软件行业，建立起自己的用户工作界面，让传统的软件和APP成为其基础设施，这也让人嗅到了白领行业中AGI的味道。

Anthropic创办伊始，在OpenAI负责安全对齐的联合创始人阿莫迪兄妹，就把预训练建立在一整套AI行为准则之上，让大模型Claude避免了发布之后再进行人类反馈可能带来的安全与对齐麻烦，也在客观上引导了Anthropic在比较清晰可测试的领域的深耕，如编程领域。

2021年，Anthropic在A轮融资中筹集了约1.24亿美元，估值约为5亿美元，主要资金来自科技圈中的大佬，当时它宣布使命是“致力于提升人工智能系统的安全性。”具体而言，就是提高大规模人工智能模型的可靠性，让AI更易于解释，并将人类反馈更紧密地融入这些系统开发和部署。

Anthropic称Claude是宪法AI，建立在一系列人类价值原则之上，而并不是像其他实验室那样只有在预训练之后，才通过人类反馈进行对齐；而且实践证明，事后打对齐的补丁，效果并不好。从2022年发布论文，2023年5月发布第一个版本，一直到2026年1月的新版本，AI宪法已经从简单的规则手册，变成了一个深度的价值理念框架——Anthropic内部的确有一位专职的哲学家在负责。

创始人阿莫迪兄妹以及整个团队更早意识到，AI时代真正的赢家，将是最值得世界信任的那一方。更重要的是，他们在模型架构中就内嵌了对“信任”的考量，而不是像其他一些公司那样，把信任当作事后的补丁。

随着智能体的自主性越来越强，不可信的AI将成为一种生存级风险。企业将越来越多地要求质量、安全性和可靠性，而Anthropic已经准备好交付这些能力。在今天，信任本身就是一个指数级的增长杠杆。

AI应用最大的障碍是什么？是它的性能吗？是需要不断强大的模型吗？都不是。大模型和智能体，在实验室环境中的表现，与在监管实际工作环境中的表现，在着巨大的差异。其中最大的障碍，是人类在使用中的基本信任。因为人类不信任，许多领域无法使用AI。一旦人类信任了AI，它将迎来比以往新技术的推出更加强劲的增长。

Anthropic非常注重把Clause打造成一个值得信任的人格。在最新发布Claude 4.6 Sonnet时，其安全研究人员得出结论，Sonnet 4.6“性格热情、诚实、亲社会，有时还很幽默，安全行为非常出色，并且没有迹象表明存在与高风险错位形式相关的重大问题。”

中国大模型上市企业受益

Anthropic上一轮融资130亿美元是2025年9月，投后估值1830亿美元。仅仅5个月估值翻倍，Claude Code起到了重要作用，但更重要的是整体收入的爆发，5个月年化收入从50亿美元增长到140亿美元，增长1.8倍。这个估值贵吗？Anthropic的市销率为27倍，相比之下：

成熟SaaS：5-10倍；

高增长SaaS：10-20倍；

英伟达在AI热潮巅峰时期：约20-25倍；

Snowflake在2021年泡沫顶峰时期：约40-50倍。

看起来还不那么“泡沫”，特别是用这个指标与中国的AI上市企业对比一下，它对公开市场上大模型企业的溢价效应已经体现出来。

Anthropic业绩爆发，估值翻倍，尤其是它推出的一系列应用插件，在各垂直领域对于美国庞大的软件行业造成冲击，最近几周市值已经蒸发了上万亿美元。在Anthropic估值翻倍的同时，科技七雄今年以来的股价都在下跌，它们披露今年的资本投入却翻倍增长，加上现金流下降，举债增加，进一步加剧了投资者对于投资回报的担忧。

但中国这里是别样风景。Claude Code成为中国模型的对标首选，如智谱的GLM-5，以及Minimax的M2.5，都称编码性能逼平Claude Opus 4.6，价格却低至只有其1/20。智谱和Minimax的市值更是暴涨超过3000亿港元。

与此同时，Claude上线极速模式，定价大幅提升，输入价格从5美元/百万token飙升至30美元，输出价格从25美元/百万token涨至150美元，涨幅高达600%。引发行业震动的同时，也反应出随着多智能体帮助（替代）人类工作时间越来越长，低延时的经济价值愈发明显。

中国的开源模型推出极致的低价，Claude Code推出极致的高价，究竟谁更能体现出对AI编程市场供需的真实情况?

首先，中国与美国的市场非常不同。美国的软件市场远远大于中国，尤其是SaaS市场，中国基本上就没怎么发育起来。当Claude Code被验证真的能替代人类编程的大部分工作，推出包括11个开源插件的Cowork时，与文字处理和数据分析相关的大部分软件将会受到冲击。万亿美元级别的软件行业，为Claude Code和Codex提供了足够大的市场，以及未来几年的增长空间。

其次，智能体产品的竞争力中，静态的性能评侧表现和激进的价格，目前并不是最重要的因素。对于企业客户来说，最重要的是信任度，因为企业拿出来的，是数据和工作流程，企业采纳的，已经不是工具，而是“员工”了。丰富的生态是实现智能体“通用性”的前提，因为越来越多的智能体之间协作，以及越来越多的工具和应用互相调用。用户体验很重要，今后智能体代替人类完成工作的时长，将会逐步增加到数天甚至数周，低延迟就是智能体劳动生产率的重要指标。这方面又涉及到推理算力。

中国在SaaS软件发展方面的不成熟，让美国市场对软件行业的焦虑，反而有可能成为中国的机会，可以避免传统软件的羁绊，直接发展原生AI软件。与消费AI一起，这也可能也是中国AI大模型市场今年的价值期待。

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定