DeepSeek通过架构创新颠覆AI行业,以极低成本实现顶级性能,挑战英伟达算力霸权和大厂闭源模式,但面临人才流失和算力短缺的挑战。 ## 1. 架构创新颠覆行业成本结构 - V2将KV Cache压缩至5%~13%,推理成本降至行业1/10;V3仅用560万美元达到GPT-4o水平,训练成本差100倍。 - V4的Mega MoE架构使百万token上下文成标配,算力消耗压至前代27%,显存占用仅10%。 ## 2. 挑战英伟达算力霸权与闭源生态 - V4独家适配华为昇腾,放弃CUDA生态,可能成为首个不依赖英伟达的前沿模型。 - 开源策略冲击闭源定价:V4-Flash输出价仅GPT-5.5标准版的1%(2元vs 180美元/百万token)。 ## 3. 大厂困境:生态位锁定与人才流失 - 阿里千问因商业化转向失去技术灵魂,C端体验断崖式下滑;字节Seed人才流失70人,高薪难留"问题定义者"。 - 大厂研发效率低下:百度长期投入未果,腾讯混元模型与V4存在代际差距(256K vs 1M上下文)。 ## 4. DeepSeek的隐忧:理想主义与现实压力 - 核心人才被大厂高薪挖角(如郭达雅近亿元入职字节),算力不足导致15个月内7次宕机。 - 被迫启动融资:腾讯阿里拟投18亿美元,估值200亿美元,但可能稀释"不打卡"文化。 ## 5. 重新定义竞争维度的战略启示 - 梁文锋主张"走自己的路":V4不在性能上超越,而是通过性价比重构战场规则。 - 技术报告结语揭示核心哲学:"不诱于誉,不恐于诽",以原创力替代资源堆砌。
大厂者鄙,DeepSeek带刺
2026-04-27 18:39

大厂者鄙,DeepSeek带刺

本文来自微信公众号:AI科技头条,作者:水哥,题图来自:视觉中国


回看DeepSeek的激进创新史,每一步都在颠覆某种旧有秩序。


V2以MLA架构将占用大量显存的KV Cache压缩至5%~13%,用架构上的创新,替代算力上的硬堆。把推理成本打到行业的十分之一,逼得国内大厂集体降价。


V3把这条路走到极致——560万美元的训练成本,做到了GPT-4o的水平。戳穿AI必须烧钱的铁律。训练成本差近100倍,性能却不分伯仲。


R1更狠,推理成本只有o1的三十分之一,发布当天英伟达跌了17%,市值蒸发近6000亿美元。这不是打价格战,是直接刺穿了算力霸权的估值泡沫。


V4把这条路又往前推了一大步。


两件事足以证明其意义:


一,很大概率能够在国产算力上跑通世界顶级模型,下半年昇腾新款芯片批量上来,已经地板价的token价格还会大幅降低。


二,让百万长文本成为免费标配——过去这是顶级模型的奢侈功能,现在V4把它写进了所有版本的出厂设置。


一个小团队想调用百万级上下文跑Agent应用?以前被算力门槛挡在门外,现在门被踹开了。


更深远的影响在于技术外溢。KV Cache压到10%,意味着百万上下文的推理不再被高端显卡的显存门槛卡脖子。赢的不只是V4这一款产品,整个开源生态的准入门槛都已经被系统性地拉低。


战略层面还有砍入算力霸权脊梁骨的一刀。


V4拒绝给英伟达和AMD提前适配的机会,独家跟华为昇腾深度绑定,从英伟达的CUDA生态硬切到华为的CANN架构。


要是成了,这就是全球第一个不靠英伟达的前沿模型,在算力国产这件事上,梁文锋就功德无量,在跑通之前,吾泱泱中华,“乃笼中鸟、网中鱼”,处处受人掣肘,如果跑通,中国AI就不再受制于人,用当年刘备逃出曹营的话来说就是:


“此一行如鱼入大海、鸟上青霄,不受笼网之羁绊也!”


对于美国而言就是,“放龙入海,纵虎归山也。”所以,美国人黄仁勋才痛心疾首说,DeepSeek和华为要是深度适配,“对美国来说是个糟糕的结果”。


从V2一路看到V4,DeepSeek都呈现出一种带着硬刺的不屈服气质:


不是比你跑得快,是根本不跟你跑同一条道——不跟你玩堆算力的游戏,不进你闭源收费的套,不认你定下来的价格体系。


大厂之鄙:无法跳出生态位,看见真正的风暴


大厂的困境,根源不在资源,不在人才。它们的每一个选择都非常正确,甚至过于正确,都在追求对自身生态位的极致发挥。


但正是这样让它们无法跳出自身生态位去看见,还在酝酿当中的变革风暴。


千问赢在开源模式,与林俊旸的路线坚持有直接关系。当2024年行业陷入“开源还是闭源”的路线摇摆时,林俊旸带领千问坚定走开源路线,截至2026年3月,千问已占全球开源模型下载量的50%以上。


但这也恰恰是他离开的深层原因。2026年初,阿里将Qwen团队“拆开打散”为水平分工模块,与林俊旸“预训练与后训练必须深度耦合”的技术信仰背道而驰。


当阿里从“技术攻坚期”进入“商业变现期”,这位32岁的最年轻P10选择了转身。


商业战略重点的转移,无可厚非而且非常有必要,在很多场景,目前为止的大模型能力已经远远够用。


为了不被入口转移所抛离,大厂都必然要把精力放到了培育用户超级入口上面。


当千问在企业级市场以32.1%占比居首、Qwen3.6-Plus单日Token峰值1.4万亿登顶OpenRouter时,阿里看到了商业化的坦途——ATH事业群应运而生,从“卖货”转向“卖Token”。


在AI大模型的竞争叙事中,一个更为隐秘的变量往往被忽视——关键人物与产品灵魂之间的非线性关系。


千问C端应用部分性能在林俊旸离职前后的体验断崖,或许正是一面镜子。


林俊旸的离开伴随着团队连锁反应:后训练负责人郁博文同日离职,Code负责人惠彬原加入Meta。


更深层的代价在于产品气质的异变——林俊旸离职前后,水哥的长期使用体验提供了一组极具颗粒度的对比数据。


在2025年下半年至2026年初的写作长文场景中,千问的中文能力在水哥的用户体验当中,排名第一,使用价值在豆包的十倍之上,输出的文本大刀阔斧,颇有“阿里P8 PR”风范——结构严谨、文风老练、价值密度高。


而当时的DeepSeek因语料库陈旧、无法联网搜索,写文章的能力很强,但是从使用价值看,只是豆包的十分之一。


变化发生在林俊旸离职后。DeepSeek完成语料库更新后,排序彻底重构:DeepSeek跃升至第一(好于豆包十倍),豆包次之,千问则跌至使用价值不到“豆包十分之一”的位置。


更致命的是能力结构的变化,千问不再直接输出高质量长文,而是首先抛出一个“又长又臭、毫无价值的所谓提纲”,要求用户反复调整确认,多次提醒后才勉强出文,罗列素材与观点。


即便最终输出,文风也从“P8 PR”退化为“小厂PR的实习生”,失去了此前的犀利与老练。


而且这并非只是水哥个人的体验。


知乎粉丝过万的数码博主林牧之4月16日发帖称:“我最近没有用豆包,但是用千问真的错的离谱,就是让他整20个标题,他能整20个几乎一模一样的,效果很差,不知道跟创始人走了有没有关系”。


也有知乎用户在4月23日发帖称,让它把4000字内容扩充到5000字,结果它直接原封不动把原文发了一遍。


这不是参数量的下降,而是产品气质的异变。


虽然在阿里的Token生意大盘里面不太起眼,但也暴露出,与其2B市场大盘相比,多少有点鸡肋的2C业务,已经出现了一条微细但是已经足够危险的裂痕,一旦这种产品竞争力的退化,蔓延至B端产品,阿里的Token生意也就危险了。


水哥以为,大模型基础研究决定上层生态建筑,一旦自身基础模型的性能、效率竞争力,与别人的大模型,比如 DeepSeek 出现代际差距,开发者生态就会被整个端走。这其实也是阿里投资 DeepSeek 背后的焦虑所在。


林俊旸在离职后的技术复盘也提供了线索:他承认千问在“混合思维模式”上“没有把所有事情都做对”——思考模式与指令模式两种行为画像在相互拉扯,融合后的模型“思考时啰嗦犹豫,执行指令时不够干脆可靠”。


技术路线的摇摆,精准地投射在了用户体验上。


而且,纵使基础模型强大如阿里,资源分散之下,C端的精力也曾大量被消耗在内部协调而非外部竞争上,C端产品线长期摇摆,夸克vs千问的入口之争直到2025年12月才完成收拢。


千问在企业级市场的领先,本质是阿里云十三年生态红利的集中兑现。


沙利文报告显示千问以32.1%占比居企业级调用榜首,B端贡献75%~85%的Token消耗,才是大模型真正的“造血中心”。


阿里赢在技术纵深,更赢在战略节奏,从通义千问月活306万到千问月活3亿,每一步都踩在技术成熟与商业变现的交汇点上。


但能否在失去林俊旸后,依然保持“模型+生态”的双轮驱动,将是千问下一程的真正考验。


“千金市马骨”:顶级AI人才的价值重估


这一案例指向一个被系统性低估的命题:具备战略视野与产品直觉的顶级AI人才,其价值可能远超数支技术团队的投入总和。


林俊旸离职后,阿里迅速启动全球招募、成立技术委员会、吴泳铭亲自挂帅——动作不可谓不快。但“诚心招募”与“千金市骨”之间,存在本质差异。


《战国策》记载,燕昭王求贤,郭隗建议以五百金买千里马尸骨,消息传出,天下人皆知昭王真心求马,千里马遂源源而至。“死马且市之五百金,况生马乎”——买的是马骨,释放的是求贤若渴的信号。


当一个组织愿意为顶级人才付出“不计成本”的代价,不仅是金钱成本,更是战略放权成本、组织适配成本、文化包容成本,向整个天才界释放信号:这里尊重定义战场的人,而非仅仅购买解题的人。


阿里有足够厚的家底来完成这样一次“信号释放”。全栈AI能力、全球第一的开源生态、1.4亿AI购物用户,这些是“千金市骨”的底气。问题在于:是否愿意将这份底气,转化为对顶级人才“不计成本”的战略投入?


商鞅徙木立信,立的是“赏罚必信”的国家信用;曾写下“前不见古人,后不见来者”的陈子昂毁琴,毁的是价值百万的胡琴,为的是让世人看见他真正的诗文。


阿里其实可以考虑再让林俊旸回来,若要向天才界证明自己的诚意,需要的不是常规招聘,而是一个能制造“注意力事件”的象征性动作——正如燕昭王买骨,买的不是马骨,是天下人心。


这个动作的对象,可以是林俊旸,也可以是任何能定义战场的人。


关键是动作本身的分量。


大厂之鄙,非不能也,是不为也


腾讯的底牌最强,但“后发制人”在AI时代可能变成“后发被人制”。腾讯非常擅长应用体验本身,但大模型研发滞后严重拖累了体验上限。


4月23日,腾讯发布了混元Hy3 preview——28岁的姚顺雨出任首席AI科学家后交出的第一张“成绩单”。但是其256K的上下文与V4的1M全系标配仍有代际差距——混元在追,但别人也没有停下来等。


用别家的模型改善体验,以及买量,都应该看到腾讯对大模型对话型应用的市场窗口期依然有着天然敏锐的战略直觉——不抢时间,以后更没机会。


但是,应用层的极致优化,无法替代模型层的代际突破。


百度:选对了方向,但研发效率极低,市场嗅觉迟钝。百度预判AI战略正确,但长期投入如泥牛入海。更重要的是,它的主营业务搜索正是推荐平台以及AI对话应用的直接革命对象。一边是长时间的投入泥牛入海,另一边是主营业务利润衰减——方向对了,没有落地的能力,一切归零。


字节Seed人才实验的悖论:密度最高,流失也最快。豆包MAU达3.45亿断层领先,季度活跃率33.5%双冠,获客成本极低。Seed“国中之国”直禀中枢,张一鸣考核周期拉长至三年、取消季度OKR。数据漂亮,组织给力。


但字节Seed的人才密度虽为行业最高,人才流失同样触目惊心。过去一年近70人离职,30余家“字节系”创业公司反向竞争。


张一鸣2025年10月公开点破的矛盾至今未解——他将大厂AI人才困境称为“过拟合”:“有的人才可能专业知识扎实,也有高精准的技能,但面对创新任务就不行了。”高薪筛选出的是“高精准解题者”,而非“新问题定义者”。


薪酬体系的“封顶效应”同样致命,大厂内部薪酬增长是线性的、可预测的,而外部资本市场的估值想象力是百倍级的。


曾任字节AI Lab总监的王长虎转身创立爱诗科技,印证了一个残酷逻辑:用有限的现金去奖励一个可能撬动万亿市场的技术,在顶级人才眼中不是重赏,而是廉价的买断。


字节的逆袭证明了,即使在科层制大厂内部,通过“特区式”的顶层设计,依然可以创造出逼近DeepSeek的组织敏捷性。


但两者的根本差异在于:DeepSeek的护城河是“使命+自由+技术信仰”凝聚的组织文化,而字节Seed的护城河是“高薪+特区+流量赋能”构筑的资源壁垒。前者的人才黏性来自内驱,后者来自外诱。


当外诱足够大时能留住大多数人,但最顶尖的“超级个体”,真正能定义问题的人,往往是最先离开的。


大厂成了AI人才的镀金中转站。字节以行业第一的招聘力度吸入人才,又以行业第一的流失规模输出人才。


KPI、晋升答辩、季度评估,这些大厂必备的确定性业务的工具,天然排斥高不确定性、长周期的前沿探索。


另外,过度关注“入口”本身,反而可能错过入口背后的技术范式转移。字节对入口的沉迷,源于流量分发生态的自然延伸。但正如当年百度以为搜索是不可撼动的入口,直到抖音用算法推荐重新定义了信息获取方式——百度的媒介地位从第一跌至第九。


但是即便大厂也有自己的顿悟时刻。


阿里的千问能够在企业级市场登顶,恰恰因为它在2024年做出了“开源优先”的决策——这对一个以追求闭环战略著称的公司,这并非理所当然会发生的。


字节用Seed“国中之国”打破汇报链条,本质上是对自身组织基因的一次刻意背叛。


但这些反例恰恰证明了“鄙”的实质:不是跳不出来,而是只有在危机感足够强烈时才肯跳。而DeepSeek从第一天起就活在生态位之外。


大厂的“鄙”并非无能,相反,恰恰是太擅长在自己的生态位里做到极致,以至于看不见生态位之外的微妙变化。


而资源丰裕本身,正在成为诅咒。效率鸿沟才是真正的分水岭。阿里未来三年将投入超过3800亿元用于建设云和AI硬件基础设施,腾讯三年资本开支预计3500亿元,百度十年累计近1700亿元。DeepSeek V3成本仅560万美元——不及大厂单季零头。


大厂做加法,DeepSeek做乘法。AI时代最残酷真相:研发规模首次与竞争力脱钩。MLA架构诞生于算力硬约束——当你的GPU多到用不完,你永远不会去思考如何压缩KV Cache。资源丰裕扼杀了架构创新的原始冲动。


更致命的是,AI时代资产贬值速度已超过组织转型速度:今天抢购的GPU,两三年后可能成为资产负债表上的“低效资产”,百度的162亿减值就是前车之鉴。


DeepSeek的刺:技术原创力与不服从


DeepSeek没有生态位需要守护,没有商业模式需要闭环,没有入口需要卡位。这使得它可以纯粹地从技术第一性原理出发——每一项突破都直指“规模诅咒”的根本命门。


DeepSeek凭什么敢不服从?四刀,刀刀砍在行业最硬的地方。


第一刀:砍向“大力出奇迹”的信仰。行业默认的规矩是:想做更强的AI?先买更多的GPU。V2第一个站出来说不,V3把这条路走到极致,到了V4,干脆让模型学会“跳着读”。整个行业对“堆算力才能出奇迹”的盲目信仰,被一刀砍穿了。


V4技术上搞了个新架构,叫Mega MoE。就是把一个大模型拆成很多“专家模块”,每次推理只叫醒用得着的那几个。一百万token的上下文,算力消耗压到前代的27%,显存占用压到10%。官方的原话是:“从现在开始,一百万上下文是所有DeepSeek服务的标配,不再是什么高端功能。”


第二刀:砍向英伟达的高端算力锁。V4拒绝给英伟达和AMD提前适配的机会,工程师重写底层代码,把整套系统从英伟达的CUDA生态硬切到华为的自研架构上。CUDA是英伟达花了二十年筑起来的护城河。


短期代价不小,但官方把账算得很清楚:下半年昇腾新款芯片批量上来,Pro价格会大幅下降。


用短期的供给弹性,换长期的成本自主权。这一刀不是反商业,是反霸权。


第三刀:砍向闭源厂商的定价逻辑。性能层面,V4给出的答案是“比肩世界顶级模型而非超越”。


V4-Pro在所有开源模型里最强,跟顶级闭源掰手腕不落下风。Agent能力进步最大,写代码排开源第一,实际用着比Sonnet 4.5舒服,出来的活儿接近Opus 4.6非思考模式。


效率层面,V4-Flash输入仅0.2元/百万token,输出仅2元。而就在前一天,OpenAI发布的GPT-5.5系列将API定价锚定在高位:标准版输出30美元/百万token,Pro版输出180美元。


两套定价体系几乎在同一天面对面碰撞,V4-Flash输出价仅为GPT-5.5标准版的百分之一。


这不是打价格战,是靠架构上省下来的成本,把价格压到了行业没法跟的位置。


第四刀:砍向“闭源才能赚钱”的教条。DeepSeek从V3开始改用MIT全栈开源,此后每一次技术突破都同步开源。开源不是做慈善,是更高维的竞争,用技术平权把开发者拉到自己这边来。


四刀下来,DeepSeek不是在跟大厂打同一场仗,是重新定义了战场本身。


梁文锋有句话说得直白:中国AI不需要弯道超车,要走自己的路。


这种不服从的底气从哪来?不是叛逆,是“正己”。把技术原创力修到位,才有资格不跪;把开源生态做扎实,才敢不追着别人的赞誉和诽谤跑。


但战略层面要藐视敌人,战术层面重视对手,DeepSeek官方给出了极为坦诚的自我评价:综合能力仍落后GPT-5.4和Gemini-3.1-Pro,发展轨迹大约滞后前沿闭源模型3至6个月。


知道自己站哪,才知道往哪走。


V4的战略逻辑一目了然——不是要在性能上超越所有人,而是要在性价比上做到无可替代。


而这,正是“定义战场”的本质:不在别人设定的维度上争第一,而是重新设定竞争的维度本身。


刺与围猎:理想主义的裂缝


但DeepSeek并非无懈可击。刀向外挥,也有砍向自身的缺口。


人是第一道裂缝。高薪筛选出的是“解题者”,而非“定义问题的人”,DeepSeek反过来:不是“高薪买时间”,是“自由换创造力”。


但这套模型正承受大厂系统性压力测试。郭达雅以传闻近亿元总包入职字节——这位V3、R1的核心作者,是DeepSeek人才流失的“天花板时刻”。罗福莉转投小米,王炳宣去了腾讯。


更致命的是,DeepSeek从未融资,核心成员拿到的股权承诺无法换算成真金白银。


梁文锋自己答过:“闭源护城河短暂……把价值沉淀在团队上,形成可创新的组织和文化,才是护城河。”


但是,团队人才的黏性靠三个支点——使命感召力、研究自由吸引力、创始人凝聚力。当千万年薪、数倍薪酬砸来,三支点能否持续?


算力是第二道裂缝。3月29日DeepSeek宕机超12小时,过去15个月至少7次大规模服务中断。


更深层的矛盾在于技术原创力与基础设施承载力之间的断层:日活半年增长超66%,算力却仅增8%。


算力的掣肘也影响了V4的产品形态——此次V4依然是一个纯文本语言模型,暂缓了多模态生成的策略,源于算力和资金的限制。


技术路线可以由天才定义,但算力供给只认资本厚度。


双重挤压下,DeepSeek首启融资。据《财经》等多家媒体报道,腾讯与阿里巴巴预计共同向DeepSeek投资18亿美元,此轮估值已从100亿美元上调至约200亿美元。


这18亿美元,梁文锋真正想买的,不在资产负债表上。200亿美元定价一旦确认,核心团队股权的“纸面富贵”变成了真金白银,这能稳定现有的顶尖算法人才;算力、团队的扩张,都需要真金白银。


腾讯阿里此时入股,既是锁定中国AI赛道最稀缺的技术资产,也是为自身AI战略买一份“保险”。


字节的缺席,揭示了自研路线的深层定力与隐忧。字节对待DeepSeek的策略是分裂的:核心产品死守自研,非核心产品接入承接流量。在这门注意力超级生意的入口,张一鸣希望把命根放在自己体系内,完全可以理解。


三条路径,各怀其志。大厂在“围”DeepSeek的技术资产,DeepSeek在“守”自己的路线。从不融资到估值200亿美元,理想主义的裂缝正在演变为一场大厂围猎。


这三道裂缝,每一道都可能单独致命。如果人才流失恶化为常态,DeepSeek将失去它唯一真正的资产——定义问题的能力。


如果融资后引入KPI和汇报链,百余人团队的“不打卡”文化将被系统性稀释。如果华为昇腾的适配未达预期,V4的架构优势将在服务瓶颈中消耗殆尽。


当梁文锋开始学花钱,他能守住“不跪”的底层姿态吗?理想主义的最危险时刻,不是在拒绝资本时,而是在接受资本之后。


商战没有终局,定义战场才能建立绝对优势


DeepSeek模式对中国创新的启示,归根结底在于“定义问题的能力”。梁文锋说“表面技术代差,实质原创与模仿差距。中国AI不需弯道超车,要走自己的路”,燕昭王五百金买马骨,顶级人才看的不仅是薪酬,更是组织对“人才价值”的认知水位。


梁文锋的人才哲学构成了第三种范式。DeepSeek核心团队仅百余人,他的逻辑是:“前50名顶尖人才可能都不在中国,但我们能自己培养。”不是解题能力最强的人,而是最敢于定义新问题的人。


DeepSeek的学术驱动机制为这一理念提供了制度保障:没KPI,不打卡,成员自己决定用什么算力资源,不用审批。R1论文86页专设一章“不成功的尝试”,把两条热门路线的失败尝试摊开讲,工业界大模型研究里几乎没见过这么干的。这种对“失败”的坦诚,本质是对“创新”本质的敬畏——创新不是解题,而是试错;不是执行,而是探索。


DeepSeek模式给出的答案是:护城河不在生态宽度,不在资本厚度,不在人才密度——而在“定义战场”的能力。


马化腾对买量的纠结、李彦宏起大早赶晚集、张一鸣的“过拟合”、千问C端体验的“作者性”缺失——指向同一个病灶:组织能力无法用钱买来,只能靠时间沉淀,而AI时代最缺的就是时间。


阿里能做出千问、字节能做出Seed,恰恰证明大厂的“鄙”并非永恒,而是阶段性的宿醉。问题是,当技术范式转换加速时,宿醉的代价可能是错过整个时代。


DeepSeek官方在V4技术报告结尾留下一段话,正是这朵带刺玫瑰的硬核骨干:“不诱于誉,不恐于诽,率道而行,端然正己。”大厂者鄙,因其向外求——求流量、求入口、求商业闭环,在求中迷失自己的路。DeepSeek带刺,因其向内修——修技术原创力、修成本革命、修开源生态,在修中守住自己的道。


真正的高手,永远定义战场,而非应战。与其跪着求生,不如带刺生长。


本文来自微信公众号:AI科技头条,作者:水哥

AI创投日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

别打CALL,打钱   修改

确定