Kimi从2024年靠营销噱头立足，到2026年凭借技术突破逆袭，与DeepSeek共同代表中国AI的崛起，证明技术实力才是行业洗牌的核心变量。 --- ## 1. Kimi的逆袭：从营销标签到技术标杆 - **2024年长文本噱头**：凭借200万字输入实验模型（单次成本近100元）抢占用户心智，但技术圈评价低迷。 - **2025年低谷期**：融资停滞、员工流失，被业内视为"濒死项目"，同期DeepSeek因开源"深度思考"模型崛起。 - **2026年技术爆发**：K2模型实现Agent能力突破，获Nature评价"另一个DeepSeek时刻"，融资超20亿美元，估值达1200亿。 --- ## 2. AI技术范式转变：从Chat到Agent - **全球趋势**：Claude Code取代Cursor成为程序员首选工具，Anthropic超越OpenAI成为最酷创业公司。 - **中国市场拐点**：DeepSeek R1复现OpenAI技术时，Kimi选择押注Agent赛道，K2模型工具调用能力获Anthropic联合创始人认可。 - **本质洞察**：杨植麟提出"缸中之脑"理论，强调编程和工具调用比纯思考更具现实价值。 --- ## 3. 关键技术突破与行业认可 - **Attention Residuals**：挑战10年历史的神经网络残差连接机制，获OpenAI创始人Andrej Karpathy极高评价。 - **多模态领先**：K2.5成为唯一具备多模态能力的创业公司模型，被Cursor套壳、Cloudflare引入主力模型。 - **商业验证**：20天收入超过去一年，算力供不应求，大厂需预购接入额度。 --- ## 4. 中美国际竞争格局 - **套壳事件**：3500亿估值的Cursor因依赖Kimi底座模型引发丑闻，最终公开道歉并技术授权。 - **全球影响力**：成为Perplexity唯一引入的中国开源模型，获马斯克、黄仁勋等站台，杨植麟成英伟达GTC唯一中国演讲者。 --- ## 5. 中国AI双雄的差异化路径 - **DeepSeek路线**：幻方量化基因驱动极致能效比，MLA架构突破成就2025年技术标杆。 - **Kimi策略**：2025年默默验证二阶优化器技术（Muon取代Adam），最终应用于万亿参数K2模型。 - **共同信念**：技术是最大变量，AGI竞赛刚起步，"下一个Anthropic可能来自中国"。

2026-03-30 21:17

Kimi没有DeepSeek的命

阑夕

本文来自微信公众号：阑夕，作者：阑夕，头图来自：AI生成

2024

或许你还记得，在并不遥远的2024 年，Kimi是中国AI当红炸子鸡：10亿美金融资、Kimi概念股多次涨停、200万字输入碾压GPT、激进的投流推广策略。

但他们当时获得的曝光度，远超自己的技术影响力。

事实上，那个200万字的模型，后来能用到的人微乎其微。后来了解到，那是个实验性模型，每次运行成本接近 3 位数，完全不具备大规模服务用户的可能性。

那时的技术圈，对 Kimi 是不屑一顾的。

但是靠着200万字的噱头，Kimi还是站住了“长文本”标签和用户心智。

2025

2025 年初，DeepSeek 横空出世，真正靠技术实力成为中国AI技术的代言人。

到了 2025年中，Kimi 已快一年没任何融资的消息。被“唱衰”成为主旋律，员工开始流失，业内基本给这个创业项目判了死刑。

如果你从2025年年中开始，闭关了 9 个月，到2026年3月看到新闻：

Kimi 最新估值 1200 亿；

Kimi 20 天收入超过去一年；

Kimi的模型被3500亿估值的最火AI编程工具Cursor套壳并实锤（你闭关了9个月，所以不知道最火的AI编程工具已经是 Claude Code了，Cursor已成老二）；

Kimi新模型被承载了互联网20%流量、市值超过 5000 亿Cloudflare引入为主力模型；

Kimi新模型成为全球最大独立AI搜索应用Perplexity唯一引入的开源模型和中国模型；

Kimi新技术“注意力残差”开始改造深度学习架构10多年来的地基，并得到前OpenAI的联合创始人Andrej Karpathy、OpenAI推理模型之父 Jerry Tworek 以及马斯克称赞；

杨植麟成为英伟达2026 GTC年度大会唯一受邀做演讲的全球独立大模型公司代表……

你很可能会惊掉下巴。

大家说“AI 一天，人间一年”，AI 领域 9 个月确实发生了很多事情。

但归根结底是一件事情，AI技术的范式发生了变化。这个变化最常见、最偷懒的概括是从 Chat 到 Agent。

对全世界的 3000万程序员来说，变化是，最受推崇的工具从Cursor 变成 Claude Code。

对总是率先拥抱新技术的 early adopter 来说，变化是更频繁地打开那个类似 DOS 系统的黑白命令行终端……

对AI公司来说，变化是大家陆续发现：更会聊天的模型，远不如会写代码和调用工具的模型有价值。

最酷的产品从ChatGPT变成Claude Code，最酷的创业公司也从 OpenAI 变成了 Anthropic。

回到 2025 年初的中国市场。

DeepSeek R1 因为复刻并开源了 OpenAI o1 的“深度思考”能力爆火，另一个“通用 Agent”产品 Manus 也横空出世……

彼时的中国AI公司，大多数在忙着复现 DeepSeek R1，推出能“深度思考”的新模型。少数公司意识到 Manus 背后的那个模型，才是更值得花资源“复现”的东西。或者意识到了，但没有分配到足够的资源，或找到方法。

Manus的一个很大的价值，就是可视化呈现了Claude模型的多轮工具调用能力。正如一位大模型公司的技术专家在自己的博客中写到，“绝大多数 Agent 产品，离了 Claude 以后，什么都不是。”

直到 2025年7月，中国第一个主打Agent能力的模型才悄然出现。7月11日，Kimi K2 发布，喊的是 Open Agentic Intelligence。这里显然藏着他们的野心：复现 Claude 模型的 Agent 能力，并开源出去。就像 DeepSeek R1 复现 OpenAI o1并开源出去。

发布 5 天后，7月16日，英国的 Nature 自然杂志发现了这个模型的价值，用“另一个DeepSeek时刻”来形容。

发布10天后，7月21日，Anthropic联合创始人Jack Clark在自己的博客中介绍了 K2，评价称：

在我看来，Kimi 是一款还不错的模型，落后美国最前沿几个月，延续了 DeepSeek 的轨迹。其编码和工具调用分数已足够高，我预计现实中会有人真正用它，因此观察其采用率能折射竞争力。

7 月底，杨植麟在播客专访中，解释了 K2 为什么没有先做“深度思考”，而是在 Agent 需要的编程和工具调用能力上发力。他用“缸中之脑”来形容主打深度思考的模型。对了，杨植麟这篇采访值得多看几遍，他讲了很多技术层面更本质的东西，比如编程和Agent的关系，思考和工具调用的关系。

因为 K2 和后续 K2 Thinking 模型的表现，Kimi 的融资在年底终于续上了，5 亿美金，IDG和几家老股东继续加持。

2026

2026 年春节前后，这个疯狂的大模型发布季，Kimi 是第一个交卷的选手。可能也是让同行们最难受的一个，因为 K2.5万亿参数、图片和视频的多模态理解能力，支持思考和非思考模式。其他创业公司同行发布的都是纯文本模型。有实力把多模态能力融入旗舰模型的，只有大厂的闭源模型。

3月16号，Kimi团队发布了Attention Residuals的技术论文，挑战已有 10 年历史的神经网络底层残差连接机制。OpenAI的联合创始人Andrej Karpathy锐评Kimi“让我们意识到根本没有把Attention is All You Need理解透彻”，要知道，Attention is All You Need就是开启大模型时代的圣杯，哪怕考虑到AI圈的通词膨胀，这个评价也是前所未有的高。据说，论文第一作者是一位仅 17岁的高中生，天才出少年，真是令人感慨。

3月17号，Kimi 模型继年初的 CES 2026 之后，在黄仁勋的 GTC 2026 主旨演讲中再度成为英伟达展示下一代芯片和推理性能的御用模型。

3月18号，作为英伟达的GTC年度大会唯一受邀的中国独立大模型公司代表，杨植麟的现场演讲全是干货，上来就把优化器、注意力机制、残差连接三大核心模块比作有8-11年历史的陈旧技术标准，是继续Scaling的障碍，用新的技术突破表明“每一项基础技术都值得重新思考”。

然后是这几天人尽皆知的“Cursor丑闻”，谁能想到，估值500亿美金的全球最大编程助手Cursor，重磅推出的新一代编程模型Composer 2——跑分超过Claude Opus 4.6——竟然是套的Kimi K2.5的壳⋯⋯

身为Token中介定位的Cursor之所以要发力“自研”，主要还是为了摆脱它对Anthropic和OpenAI的高度依赖，卡脖子这事儿可不分国界，Anthropic也真的曾经断供Windsurf这类编程工具，在既当裁判员又当运动员的环境下，Cursor希望独立自主的心情，完全可以理解。

只是能力和愿景之间的巨大鸿沟，让Cursor选择了抹掉来自Kimi的底座模型名字，靠代笔求融资，事情最后也算是体面收场，Cursor的联合创始人公开道歉，在技术报告中给除了选择 Kimi K2.5 作为底座模型的详细理由，而Kimi官方也回应表示，很高兴Cursor使用Kimi K2.5作为基座，双方通过推理服务商 Fireworks AI 做了技术授权。

根据小道消息， 2026 年春节前后，Kimi 陆续以投前 48 亿美元、60 亿美元、100亿美元的估值完成总额近 20 亿美元的融资，3月份开启的 180 亿美元轮次份额也要排队才能拿到。

这当然也受益于两个同行在港股的超常表现，但更重要的还是靠自己的 K2和后续的模型实际表现，包括前文题库的 Cursor、Cloudflare、Perplexity、黄仁勋、马斯克、马克·安德森、查马斯等不断发来的“金水”，以及K2.5发布后20天收入超过过去一年的财务表现。

一位 Kimi 的朋友在私下聊天里说，制约业务发展的只有算力，现在至少还有 10 倍的需求没有满足。有多少卡，就能有多少收入。据我跟另一个大厂工作的朋友了解，现在有些大厂在编程工具中接入的Kimi模型，甚至要通过预购才能拿到足够的额度。

这 9 个月，Kimi 算是完成了一次逆天改命。

命

DeepSeek V3不是一天炼成的。其背后的幻方量化基因，决定了他们从 2023 年起就走上了一条与硅谷截然不同的极致能效比之路。在 2023 到 2024 年的大部分时间里，他们游离于主流叙事之外，潜心自研 MLA（多头潜在注意力机制）与 DeepSeekMoE 架构，试图在有限的算力下压榨出超越物理极限的性能。直到 2025 年成就自己，也给其他AI创业公司带来信心。

所有人都在期待 DeepSeek 的下一代模型继续惊艳全场，但媒体上三番五次的“狼来了”把戏只会消磨大家的注意力。技术突破，哪是那么容易的事情，我们完全有理由更有耐心地等待 DeepSeek 团队的下一个作品。

Kimi K2 也不是一天炼成的。他们实际上跟 DeepSeek R1同一天发布了无人问津的K1.5模型，被OpenAI官方认为是率先复现o1的两个公司之一。他们在被唱衰最厉害的2025年初发布了Moonlight系列小型MoE模型，用来验证下一代二阶优化器技术，并且最终应用到万亿的K2模型上。现在Muon已取代已经用了10年的标准技术Adam，成为Kimi、GLM-5、DeepSeek Engram在内的新模型都开始采用的新标准。

正所谓，“出来混，总要还的。”Kimi 在2024年提前享受了C位和曝光，2026年没再复现该属于自己的流量。

各有各的命。

作为两家几乎同时起步的创业公司，我佩服他们那种从来不认为市场格局已定、相信技术才是最大变量、敢于追逐AGI 的勇气和年轻生猛、战绩可查、永远相信细水长流的力量。

即使站在 2026年3月底这个时间节点看，2022年底开始的这场AI革命也才进行了3年半的时间，一切才刚刚开始。为什么下一个 OpenAI 和 Anthropic 不能是一家中国公司？

本文来自微信公众号：阑夕，作者：阑夕

AI创投日报频道: 前沿科技

阑夕

逐鹿网 zhulu.com 创始人

认证作者

已在虎嗅发表 349 篇文章

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定