Claude Code如何突破白领工业革命
2026-02-23 01:27

Claude Code如何突破白领工业革命

本文来自微信公众号: 未尽研究 ,作者:未尽研究


从元旦到新年,中国和美国的AI实验室,密集发布了开源和闭源模型。从K2到Gemini3.1,每家都会对比与竞争对手的评测分数的对比,所传达的信息非常一致:我要么最牛,要么正在最牛的路上。


与此同时,前沿模型之间的评测分数更为接近,无论从时间上还是分数上,它们之间的差异性日益缩小,模型正在商品化,智能正在商品化,用户在模型之间做出选择,越来越没有意义。


中国与美国AI之间竞争的重点,已经不再是模型评测的重点,不再完全是打榜的分数,而是实际应用所创造的价值。


而且各模型公布的评测分数,其可比性并不令人信服。未尽研究梳理了中国与美国所有大模型发布的评测分数,尽管精确到小数点,我们发现它们所引用的竞争对手的分数,来源并不透明,也不一致。


在大模型的实验室评测结果,与实际应用中的结果之间,存在着巨大的差距。为什么Claude模型的评测,在评测分数上被大厂和小龙们超越,但它的企业服务收入,却是中国所大厂和大模型企业的收入的总和?这意味着中国前沿AI实验室的“高分低能”?还是它们的增长空间很大?


智能体>大模型


典型的Agent,有三层结构:



其中的模型层(Models),是一个基础大模型(LLM),提供推理和生成能力,类似CPU;


代理执行层(Agent Harness)负责工具调用、I/O、状态管理,像一个操作系统,决定模型能不能真的“动手”;


技能层(Skills)是领域化、可复用的能力与工作流,例如:如何修改Excel、调API、调度任务、修一个真实bug等。


这说明智能体能力并不等于模型能力,可复用的技能是新的扩展(scaling)维度,2026年的竞争重点,不只是谁模型更大,而是谁的智能体系统更工程化。


所以,AGI并不是一个什么问题都能回答的超级大模型,现在更接近现实的AGI形态,是知行合一的,它有认知能力,执行能力,长期约束、现实反馈闭环,等等。而Claude Code/Codex/Gemini CLI/Cursor/Devin这一类系统,第一次把这四个要素放进同一个系统里。


整个行业已经不再孤立地评估AI模型本身,而是把它们视为自治智能体内部的引擎——这些系统可以连续运行数小时,进行成千上万次工具调用,编写并执行代码,操控浏览器,并与企业软件交互。每一百万token的成本效应,会在这成千上万次调用中被不断放大。在这种规模下,每百万输入token是15美元还是3美元,或者如中国开源模型的颠覆性杀价,不再只是小幅差异,而可能是决定性的变革。


最近Claude Sonnet 4.6发布,成本为Clause Opus 4.6的五分之一,百万token的上下文窗口,可以在单个请求中容纳整个代码库、冗长的商业合约或数十篇研究论文;它操作电脑达到了人类水平;在自动收货机的评测中,它能在激烈的市场竞争和“长期主义”中实现业绩翻倍。


除了前端开发的码农,这次发抖的可能是金融分析师们。Excel版Claude插件现已支持MCP连接器,让Claude可以与分析师日常使用的其他工具和数据来源(例如S&P Global、LSEG、Daloopa、PitchBook、Moody's和FactSet)协同工作——Claude从电子表格外部提取上下文信息,而无需离开Excel。此功能适用于Pro、Max、Team和Enterprise套餐。


元旦与春节之间,中国与美国AI实验室的智能体竞争,正在把AI应用推向一个重大拐点。中国这里接连推出了Kimi2.5、GLM 5、M2.5、Seed2.0、Qwen3.5,主打智能体和实际应用能力。而美国则接连推出了GPT-5.3 Codex,Clause Opus和Sonnet 4.6、以及Gmini3.1。智谱和Minimax成为最先上市的两家AI大模型企业,中国市场对智能体概念的高涨热情,正在将其市值推向空前的亢奋。Anthropic以3800亿美元的估值融资300亿美元,OpenAI以8500亿美元的估值融资逾千亿美元,最近又传出月之暗面正以100亿美元的估值进行新一轮融资,这些投资者对头部原生AI企业的热情,正在映射至中国率先上市的大模型企业。


从元旦到春节以来的这股迅猛的潮流,包括软件市场的波动和围绕科技巨头的焦虑,是由Anthropic引发的。


Claude Code在硅谷已经成为一种文化现象,它代表了过去一年中的两个重要趋势,即氛围编程(vibe coding)和智能体AI(Agentic AI)。编程是一项具备通用性的技术,通过智能体日益丰富的生态,向其他知识工作领域迅速扩展。


Claude Code,AI能吃掉软件吗


去年夏天,当马克·扎克伯格开始在硅谷大肆挖人时,大笔金钱也疯狂砸向Anthropic员工,其中许多工程师如果跳槽,可以轻易拿到到少五千万美元的薪水。但是绝大多数人甚至懒得回应。


当时,Claude Code刚刚推出。它是一个命令行AI编程智能体,让开发者可以直接在终端将编程任务委托给Claude,很快让人嗅到了AGI的气息。基于Claude Code推出的Cowork,开始真正掀起白领工业革命,并且在市场上引发焦虑的动荡,带有明显的颠覆式创新效应。


Cowork首先引发了“AI吃掉软件”市场恐惧。那些SaaS软件公司,过去的几年是资本市场上的宠儿,它们对企业的工具、工作流程和协作机制进行编程,然后通过云服务的方式交付,以席位的方式卖给企业。但是代理式的软件能自动化地实现这些功能,并且开始替代企业白领员工操作软件和相关工具。SaaS软件公司,行动快的,将与紧随AI原生企业一同用AI吃掉软件,行动慢的,将被吃掉,或者沦为智能体的基础设施。


它带来的另外一个效应,是对科技巨头巨额资本支出的进一步质疑。今年以来,微软、谷歌、亚马逊、Meta等的资本支出都增加了一倍。但是Anthropic这样的初创企业迅速向巨头迈进,中国开源AI的更强有力的挑战,都令投资者对于这些巨头能否成为最终的赢家信心不足。


Claude Code发布于2025年5月,到去年12月份,年化收入即超过12亿美元,今年1月份年化收入翻倍,达到了25亿美元。也就是说,它已经是一款月收入超过2亿美元的AI原生产品,超过了中国所有AI原生产品目前收入的总和。



Claude Code的周活跃用户数自2026年以来也翻了一番。最近的一项分析估计,全球所有GitHub公共提交中有4%是由Claude Code编写的,这个比例亦是一个月前的两倍。


Claude Code的企业订阅自2026年初以来增长了四倍,企业使用已占Claude Code总收入的一半以上。越来越多企业愿意投资AI,很大程度上是因为以Claude Code为代表的编程智能体,其架构日益完善,并且在向企业的部署中,逐步打破了信任的壁垒,开始创造经济价值。


2025年上半年,Anthropic的企业服务年化收入即超过OpenAI,目前已经巩固了企业和开发者首选智能平台的地位。Claude年度支出超过10万美元的客户数量(以年化收入计算)在过去一年中增长了7倍。从单一用例(API、Claude Code或Claude for Work)开始使用Claude的企业,正在将集成扩展到整个组织。两年前,只有十几家客户的年化支出超过100万美元,如今这一数字超过500家。财富10强中有8家现已成为Claude客户。


Claude Code代表着智能编程的新时代,从根本上改变了团队构建软件的方式。Claude在编程方面差异化的竞争力,也正在开启其他新的工作类别:金融和数据分析、销售、网络安全、科学发现等等。


Claude Code是自ChatGPT以来发布的最成功产品,也是智能体发展的一个新的里程碑。下面这个SkillsBench研究表明,在真实世界任务中,可复用技能和执行结构,能够系统性地提升智能体的表现,其效果足以部分替代模型规模本身。Claude大模型在刷榜的总体分数中不及OpenAI和Gemin等,甚至被一些中国开源模型胜出,但是它在企业服务中却表现出最强的执行能力,并且赢得了企业的信任,足以让它在最终的Agent表现中胜出,这在Claude Code(Opus 4.5)中表现尤其明显。


前沿模型的性能正在趋于一致,在Chatbot Arena上,排名第一的模型与排名第十的模型之间的差距,在一年内从11.9%缩小到5.4%。因此,“模型选择”的重要性远不及工作流程+评估+数据。



Cowork:AI从"工具"变成"同事"


2026年,Anthropic进入爆发期,推出了30多款产品和功能,包括Cowork,成为要“吃掉”传统软件的AI软件。


Cowork将Claude Code的工程能力扩展到更广泛的知识工作任务范围,包含11个开源插件,让客户能够将Claude转变为特定角色或团队的专家,如销售、法务或财务。它还把Anthropic的业务扩展到医疗保健和生命科学领域,Claude for Enterprise现已可供在HIPAA(健康保险流通与责任法案)框架下运营的组织使用。


而且Claude Code的能力还在通过智能体生态,迅速繁衍、泛化。发布两周前发布的Claude Opus 4.6,能够驱动管理整个类别实际工作的智能体,以专业水准生成文档、电子表格和演示文稿。Opus 4.6是GDPval-AA基准测试中的全球领先模型,该测试衡量AI的有经济价值知识工作的性能,体现在金融、法律和其他领域。


所有这些,让Anthropic的G轮的估值,达到了3800亿美元,融资300亿美元真金白银。有了这笔钱,加上可能在年底IPO,将助力其基础设施迅速扩张。


Claude仍是唯一在全球三大云巨头平台上向客户提供服务的前沿AI模型:亚马逊云服务(Bedrock)、谷歌云(Vertex AI)和微软Azure(Foundry);而且在多样化的AI硬件上训练和运行:AWS Trainium、谷歌TPU和英伟达GPU。


这些意味着Claude可以将工作负载匹配到最适合的芯片。这种平台多样性为Claude的客户完成关键工作提供了更好的性能和更强的韧性。


从这个产品矩阵可以看到,Anthropic正在以AI编程为突破口,切入到最重要的白领行业,以及所有SaaS软件的领域,包括那些几十年来几乎所有白领打工族使用的工具,如Excel,以及最多用户使用的上网工具,如Chrome。


宪法AI的可信之路


在OpenAI与谷歌DeepMind之间的竞争主导的硅谷,Anthropic仅用短短几年即走出了一条AGI之路,从大模型的安全入手、专注于编程和智能体,扩展生态,深耕企业服务。从AI编程这一通用的功能突破,延伸至软件行业,建立起自己的用户工作界面,让传统的软件和APP成为其基础设施,这也让人嗅到了白领行业中AGI的味道。


Anthropic创办伊始,在OpenAI负责安全对齐的联合创始人阿莫迪兄妹,就把预训练建立在一整套AI行为准则之上,让大模型Claude避免了发布之后再进行人类反馈可能带来的安全与对齐麻烦,也在客观上引导了Anthropic在比较清晰可测试的领域的深耕,如编程领域。


2021年,Anthropic在A轮融资中筹集了约1.24亿美元,估值约为5亿美元,主要资金来自科技圈中的大佬,当时它宣布使命是“致力于提升人工智能系统的安全性。”具体而言,就是提高大规模人工智能模型的可靠性,让AI更易于解释,并将人类反馈更紧密地融入这些系统开发和部署。


Anthropic称Claude是宪法AI,建立在一系列人类价值原则之上,而并不是像其他实验室那样只有在预训练之后,才通过人类反馈进行对齐;而且实践证明,事后打对齐的补丁,效果并不好。从2022年发布论文,2023年5月发布第一个版本,一直到2026年1月的新版本,AI宪法已经从简单的规则手册,变成了一个深度的价值理念框架——Anthropic内部的确有一位专职的哲学家在负责。


创始人阿莫迪兄妹以及整个团队更早意识到,AI时代真正的赢家,将是最值得世界信任的那一方。更重要的是,他们在模型架构中就内嵌了对“信任”的考量,而不是像其他一些公司那样,把信任当作事后的补丁。


随着智能体的自主性越来越强,不可信的AI将成为一种生存级风险。企业将越来越多地要求质量、安全性和可靠性,而Anthropic已经准备好交付这些能力。在今天,信任本身就是一个指数级的增长杠杆。


AI应用最大的障碍是什么?是它的性能吗?是需要不断强大的模型吗?都不是。大模型和智能体,在实验室环境中的表现,与在监管实际工作环境中的表现,在着巨大的差异。其中最大的障碍,是人类在使用中的基本信任。因为人类不信任,许多领域无法使用AI。一旦人类信任了AI,它将迎来比以往新技术的推出更加强劲的增长。


Anthropic非常注重把Clause打造成一个值得信任的人格。在最新发布Claude 4.6 Sonnet时,其安全研究人员得出结论,Sonnet 4.6“性格热情、诚实、亲社会,有时还很幽默,安全行为非常出色,并且没有迹象表明存在与高风险错位形式相关的重大问题。”


中国大模型上市企业受益


Anthropic上一轮融资130亿美元是2025年9月,投后估值1830亿美元。仅仅5个月估值翻倍,Claude Code起到了重要作用,但更重要的是整体收入的爆发,5个月年化收入从50亿美元增长到140亿美元,增长1.8倍。这个估值贵吗?Anthropic的市销率为27倍,相比之下:


成熟SaaS:5-10倍;


高增长SaaS:10-20倍;


英伟达在AI热潮巅峰时期:约20-25倍;


Snowflake在2021年泡沫顶峰时期:约40-50倍。


看起来还不那么“泡沫”,特别是用这个指标与中国的AI上市企业对比一下,它对公开市场上大模型企业的溢价效应已经体现出来。


Anthropic业绩爆发,估值翻倍,尤其是它推出的一系列应用插件,在各垂直领域对于美国庞大的软件行业造成冲击,最近几周市值已经蒸发了上万亿美元。在Anthropic估值翻倍的同时,科技七雄今年以来的股价都在下跌,它们披露今年的资本投入却翻倍增长,加上现金流下降,举债增加,进一步加剧了投资者对于投资回报的担忧。



但中国这里是别样风景。Claude Code成为中国模型的对标首选,如智谱的GLM-5,以及Minimax的M2.5,都称编码性能逼平Claude Opus 4.6,价格却低至只有其1/20。智谱和Minimax的市值更是暴涨超过3000亿港元。


与此同时,Claude上线极速模式,定价大幅提升,输入价格从5美元/百万token飙升至30美元,输出价格从25美元/百万token涨至150美元,涨幅高达600%。引发行业震动的同时,也反应出随着多智能体帮助(替代)人类工作时间越来越长,低延时的经济价值愈发明显。


中国的开源模型推出极致的低价,Claude Code推出极致的高价,究竟谁更能体现出对AI编程市场供需的真实情况?


首先,中国与美国的市场非常不同。美国的软件市场远远大于中国,尤其是SaaS市场,中国基本上就没怎么发育起来。当Claude Code被验证真的能替代人类编程的大部分工作,推出包括11个开源插件的Cowork时,与文字处理和数据分析相关的大部分软件将会受到冲击。万亿美元级别的软件行业,为Claude Code和Codex提供了足够大的市场,以及未来几年的增长空间。


其次,智能体产品的竞争力中,静态的性能评侧表现和激进的价格,目前并不是最重要的因素。对于企业客户来说,最重要的是信任度,因为企业拿出来的,是数据和工作流程,企业采纳的,已经不是工具,而是“员工”了。丰富的生态是实现智能体“通用性”的前提,因为越来越多的智能体之间协作,以及越来越多的工具和应用互相调用。用户体验很重要,今后智能体代替人类完成工作的时长,将会逐步增加到数天甚至数周,低延迟就是智能体劳动生产率的重要指标。这方面又涉及到推理算力。


中国在SaaS软件发展方面的不成熟,让美国市场对软件行业的焦虑,反而有可能成为中国的机会,可以避免传统软件的羁绊,直接发展原生AI软件。与消费AI一起,这也可能也是中国AI大模型市场今年的价值期待。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定