Kimi从2024年靠营销噱头立足,到2026年凭借技术突破逆袭,与DeepSeek共同代表中国AI的崛起,证明技术实力才是行业洗牌的核心变量。 --- ## 1. Kimi的逆袭:从营销标签到技术标杆 - **2024年长文本噱头**:凭借200万字输入实验模型(单次成本近100元)抢占用户心智,但技术圈评价低迷。 - **2025年低谷期**:融资停滞、员工流失,被业内视为"濒死项目",同期DeepSeek因开源"深度思考"模型崛起。 - **2026年技术爆发**:K2模型实现Agent能力突破,获Nature评价"另一个DeepSeek时刻",融资超20亿美元,估值达1200亿。 --- ## 2. AI技术范式转变:从Chat到Agent - **全球趋势**:Claude Code取代Cursor成为程序员首选工具,Anthropic超越OpenAI成为最酷创业公司。 - **中国市场拐点**:DeepSeek R1复现OpenAI技术时,Kimi选择押注Agent赛道,K2模型工具调用能力获Anthropic联合创始人认可。 - **本质洞察**:杨植麟提出"缸中之脑"理论,强调编程和工具调用比纯思考更具现实价值。 --- ## 3. 关键技术突破与行业认可 - **Attention Residuals**:挑战10年历史的神经网络残差连接机制,获OpenAI创始人Andrej Karpathy极高评价。 - **多模态领先**:K2.5成为唯一具备多模态能力的创业公司模型,被Cursor套壳、Cloudflare引入主力模型。 - **商业验证**:20天收入超过去一年,算力供不应求,大厂需预购接入额度。 --- ## 4. 中美国际竞争格局 - **套壳事件**:3500亿估值的Cursor因依赖Kimi底座模型引发丑闻,最终公开道歉并技术授权。 - **全球影响力**:成为Perplexity唯一引入的中国开源模型,获马斯克、黄仁勋等站台,杨植麟成英伟达GTC唯一中国演讲者。 --- ## 5. 中国AI双雄的差异化路径 - **DeepSeek路线**:幻方量化基因驱动极致能效比,MLA架构突破成就2025年技术标杆。 - **Kimi策略**:2025年默默验证二阶优化器技术(Muon取代Adam),最终应用于万亿参数K2模型。 - **共同信念**:技术是最大变量,AGI竞赛刚起步,"下一个Anthropic可能来自中国"。
Kimi没有DeepSeek的命
2026-03-30 21:17

Kimi没有DeepSeek的命

本文来自微信公众号:阑夕,作者:阑夕,头图来自:AI生成


2024


或许你还记得,在并不遥远的2024 年,Kimi是中国AI当红炸子鸡:10亿美金融资、Kimi概念股多次涨停、200万字输入碾压GPT、激进的投流推广策略。


但他们当时获得的曝光度,远超自己的技术影响力。


事实上,那个200万字的模型,后来能用到的人微乎其微。后来了解到,那是个实验性模型,每次运行成本接近 3 位数,完全不具备大规模服务用户的可能性。


那时的技术圈,对 Kimi 是不屑一顾的。


但是靠着200万字的噱头,Kimi还是站住了“长文本”标签和用户心智。


2025


2025 年初,DeepSeek 横空出世,真正靠技术实力成为中国AI技术的代言人。


到了 2025年中,Kimi 已快一年没任何融资的消息。被“唱衰”成为主旋律,员工开始流失,业内基本给这个创业项目判了死刑。


如果你从2025年年中开始,闭关了 9 个月,到2026年3月看到新闻:


  • Kimi 最新估值 1200 亿;


  • Kimi 20 天收入超过去一年;


  • Kimi的模型被3500亿估值的最火AI编程工具Cursor套壳并实锤(你闭关了9个月,所以不知道最火的AI编程工具已经是 Claude Code了,Cursor已成老二)


  • Kimi新模型被承载了互联网20%流量、市值超过 5000 亿Cloudflare引入为主力模型;


  • Kimi新模型成为全球最大独立AI搜索应用Perplexity唯一引入的开源模型和中国模型;


  • Kimi新技术“注意力残差”开始改造深度学习架构10多年来的地基,并得到前OpenAI的联合创始人Andrej Karpathy、OpenAI推理模型之父 Jerry Tworek 以及马斯克称赞;


  • 杨植麟成为英伟达2026 GTC年度大会唯一受邀做演讲的全球独立大模型公司代表……


你很可能会惊掉下巴。


大家说“AI 一天,人间一年”,AI 领域 9 个月确实发生了很多事情。


但归根结底是一件事情,AI技术的范式发生了变化。这个变化最常见、最偷懒的概括是从 Chat 到 Agent。


对全世界的 3000万程序员来说,变化是,最受推崇的工具从Cursor 变成 Claude Code。


对总是率先拥抱新技术的 early adopter 来说,变化是更频繁地打开那个类似 DOS 系统的黑白命令行终端……


对AI公司来说,变化是大家陆续发现:更会聊天的模型,远不如会写代码和调用工具的模型有价值。


最酷的产品从ChatGPT变成Claude Code,最酷的创业公司也从 OpenAI 变成了 Anthropic。


回到 2025 年初的中国市场。


DeepSeek R1 因为复刻并开源了 OpenAI o1 的“深度思考”能力爆火,另一个“通用 Agent”产品 Manus 也横空出世……


彼时的中国AI公司,大多数在忙着复现 DeepSeek R1,推出能“深度思考”的新模型。少数公司意识到 Manus 背后的那个模型,才是更值得花资源“复现”的东西。或者意识到了,但没有分配到足够的资源,或找到方法。


Manus的一个很大的价值,就是可视化呈现了Claude模型的多轮工具调用能力。正如一位大模型公司的技术专家在自己的博客中写到,“绝大多数 Agent 产品,离了 Claude 以后,什么都不是。”


直到 2025年7月,中国第一个主打Agent能力的模型才悄然出现。7月11日,Kimi K2 发布,喊的是 Open Agentic Intelligence。这里显然藏着他们的野心:复现 Claude 模型的 Agent 能力,并开源出去。就像 DeepSeek R1 复现 OpenAI o1并开源出去。


发布 5 天后,7月16日,英国的 Nature 自然杂志发现了这个模型的价值,用“另一个DeepSeek时刻”来形容。


发布10天后,7月21日,Anthropic联合创始人Jack Clark在自己的博客中介绍了 K2,评价称:


在我看来,Kimi 是一款还不错的模型,落后美国最前沿几个月,延续了 DeepSeek 的轨迹。其编码和工具调用分数已足够高,我预计现实中会有人真正用它,因此观察其采用率能折射竞争力。


7 月底,杨植麟在播客专访中,解释了 K2 为什么没有先做“深度思考”,而是在 Agent 需要的编程和工具调用能力上发力。他用“缸中之脑”来形容主打深度思考的模型。对了,杨植麟这篇采访值得多看几遍,他讲了很多技术层面更本质的东西,比如编程和Agent的关系,思考和工具调用的关系。


因为 K2 和后续 K2 Thinking 模型的表现,Kimi 的融资在年底终于续上了,5 亿美金,IDG和几家老股东继续加持。


2026


2026 年春节前后,这个疯狂的大模型发布季,Kimi 是第一个交卷的选手。可能也是让同行们最难受的一个,因为 K2.5万亿参数、图片和视频的多模态理解能力,支持思考和非思考模式。其他创业公司同行发布的都是纯文本模型。有实力把多模态能力融入旗舰模型的,只有大厂的闭源模型。


3月16号,Kimi团队发布了Attention Residuals的技术论文,挑战已有 10 年历史的神经网络底层残差连接机制。OpenAI的联合创始人Andrej Karpathy锐评Kimi“让我们意识到根本没有把Attention is All You Need理解透彻”,要知道,Attention is All You Need就是开启大模型时代的圣杯,哪怕考虑到AI圈的通词膨胀,这个评价也是前所未有的高。据说,论文第一作者是一位仅 17岁的高中生,天才出少年,真是令人感慨。


3月17号,Kimi 模型继年初的 CES 2026 之后,在黄仁勋的 GTC 2026 主旨演讲中再度成为英伟达展示下一代芯片和推理性能的御用模型。


3月18号,作为英伟达的GTC年度大会唯一受邀的中国独立大模型公司代表,杨植麟的现场演讲全是干货,上来就把优化器、注意力机制、残差连接三大核心模块比作有8-11年历史的陈旧技术标准,是继续Scaling的障碍,用新的技术突破表明“每一项基础技术都值得重新思考”。


然后是这几天人尽皆知的“Cursor丑闻”,谁能想到,估值500亿美金的全球最大编程助手Cursor,重磅推出的新一代编程模型Composer 2——跑分超过Claude Opus 4.6——竟然是套的Kimi K2.5的壳⋯⋯


身为Token中介定位的Cursor之所以要发力“自研”,主要还是为了摆脱它对Anthropic和OpenAI的高度依赖,卡脖子这事儿可不分国界,Anthropic也真的曾经断供Windsurf这类编程工具,在既当裁判员又当运动员的环境下,Cursor希望独立自主的心情,完全可以理解。


只是能力和愿景之间的巨大鸿沟,让Cursor选择了抹掉来自Kimi的底座模型名字,靠代笔求融资,事情最后也算是体面收场,Cursor的联合创始人公开道歉,在技术报告中给除了选择 Kimi K2.5 作为底座模型的详细理由,而Kimi官方也回应表示,很高兴Cursor使用Kimi K2.5作为基座,双方通过推理服务商 Fireworks AI 做了技术授权。


根据小道消息, 2026 年春节前后,Kimi 陆续以投前 48 亿美元、60 亿美元、100亿美元的估值完成总额近 20 亿美元的融资,3月份开启的 180 亿美元轮次份额也要排队才能拿到。


这当然也受益于两个同行在港股的超常表现,但更重要的还是靠自己的 K2和后续的模型实际表现,包括前文题库的 Cursor、Cloudflare、Perplexity、黄仁勋、马斯克、马克·安德森、查马斯等不断发来的“金水”,以及K2.5发布后20天收入超过过去一年的财务表现。


一位 Kimi 的朋友在私下聊天里说,制约业务发展的只有算力,现在至少还有 10 倍的需求没有满足。有多少卡,就能有多少收入。据我跟另一个大厂工作的朋友了解,现在有些大厂在编程工具中接入的Kimi模型,甚至要通过预购才能拿到足够的额度。


这 9 个月,Kimi 算是完成了一次逆天改命。



DeepSeek V3不是一天炼成的。其背后的幻方量化基因,决定了他们从 2023 年起就走上了一条与硅谷截然不同的极致能效比之路。在 2023 到 2024 年的大部分时间里,他们游离于主流叙事之外,潜心自研 MLA(多头潜在注意力机制) 与 DeepSeekMoE 架构,试图在有限的算力下压榨出超越物理极限的性能。直到 2025 年成就自己,也给其他AI创业公司带来信心。


所有人都在期待 DeepSeek 的下一代模型继续惊艳全场,但媒体上三番五次的“狼来了”把戏只会消磨大家的注意力。技术突破,哪是那么容易的事情,我们完全有理由更有耐心地等待 DeepSeek 团队的下一个作品。


Kimi K2 也不是一天炼成的。他们实际上跟 DeepSeek R1同一天发布了无人问津的K1.5模型,被OpenAI官方认为是率先复现o1的两个公司之一。他们在被唱衰最厉害的2025年初发布了Moonlight系列小型MoE模型,用来验证下一代二阶优化器技术,并且最终应用到万亿的K2模型上。现在Muon已取代已经用了10年的标准技术Adam,成为Kimi、GLM-5、DeepSeek Engram在内的新模型都开始采用的新标准。


正所谓,“出来混,总要还的。”Kimi 在2024年提前享受了C位和曝光,2026年没再复现该属于自己的流量。


各有各的命。


作为两家几乎同时起步的创业公司,我佩服他们那种从来不认为市场格局已定、相信技术才是最大变量、敢于追逐AGI 的勇气和年轻生猛、战绩可查、永远相信细水长流的力量。


即使站在 2026年3月底这个时间节点看,2022年底开始的这场AI革命也才进行了3年半的时间,一切才刚刚开始。为什么下一个 OpenAI 和 Anthropic 不能是一家中国公司?


本文来自微信公众号:阑夕,作者:阑夕

AI创投日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定