DeepSeek通过软硬件融合优化提升AI硬件Token产能,可降低对高端稀缺硬件的依赖,未来或为中国AI基建省下近1万亿美元。 ## 1. 万亿节省猜想的来源 AI基建成本中,存储尤其是高带宽显存涨价飞快,成本占比越来越高。DeepSeek通过技术优化,可让相同硬件的有效Token产出提升4倍,等效节省75%硬件投资。麦肯锡预测到2030年全球AI硬件投资将达5.2万亿美元,若中国未来日均Token消耗达数千兆,按四分之一的硬件需求计算,DeepSeek可省下近1万亿美元投资。 ## 2. DeepSeek的三刀优化:直击大模型成本痛点 大模型最耗昂贵高带宽显存的不是运算,而是两个“油老虎”:存放上下文中间结果的KV缓存,以及常驻显存的全部模型参数,传统路线只能靠堆硬件解决,成本被稀缺硬件绑架。 ### 第一刀:改造注意力机制压缩“记性” 主流路线靠共用记忆压缩KV缓存,会损伤模型质量,DeepSeek不走妥协路线,直接改造注意力机制推出MLA,通过低秩压缩浓缩记忆,DeepSeek-V4-Pro在100万Token上下文场景下,仅需要10%的缓存占用和27%的推理算力,且几乎不损失模型效果。 ### 第二刀:MoE结构改造存取“身体” DeepSeek采用混合专家MoE结构,每次推理仅激活少量参数,同时将模型参数分块编号存储,绝大多数不用的参数可放在低价普通内存甚至固态硬盘中,大幅降低高带宽显存占用。 ### 第三刀:复用计算缓存减少重复运算 将已完成的计算结果提前存储,用时直接调取,用低成本读取代替高成本运算,DeepSeek还将该优化落地到商业定价中,鼓励缓存复用。 ## 3. 优化带来的成本落差与产业价值 按同等工作量计算:月跑十亿Token的中等规模应用,DeepSeek V4-Pro月费约522美元,GPT-5.5、Claude Opus 4.7约为9000-10000美元,差距达17-19倍;反复读取10万Token代码库一百次,DeepSeek仅需约0.036美元,竞品约5美元,差距超百倍,该低价来自真实成本下降而非赔本赚吆喝。 ## 4. 对中国AI产业的战略意义 该路线不是用存储替代算力,而是降低对最稀缺尖端GPU的依赖,将压力转移到我们更有产能优势的存储和工程领域,适配中国当前供应链现状,提升AI产业供应链安全。 它重构了AI基建的成本逻辑,把未来AI的入场券重新分配给千行百业,让更多主体能负担AI基础设施,符合技术革命普惠化的方向。
Deepseek能否为中国节省1万亿美元?
2026-06-01 19:27

Deepseek能否为中国节省1万亿美元?

本文来自微信公众号:胡说成理,作者:胡喆,题图来自:视觉中国


2026 年下半年,英伟达将交付它迄今最强大的 AI 平台:Vera Rubin VR200 NVL72。一个整机柜里塞进 72 颗 Rubin GPU 和 36 颗 Vera CPU。摩根士丹利估算,这台机器的物料成本约为 780 万美元。


这个数字已经够吓人了。但更值得盯住的,是它的钱花在了哪里。


在这 780 万里,有大约 200 万美元,既没花在那颗举世闻名的 GPU 芯片上,也没花在运算核心上,而是花在了内存上——高带宽显存(HBM4)与普通内存(LPDDR5X)。仅仅一年之间,这部分内存的成本就因为涨价飙升了 435%。


这是一个信号。在 AI 这台越来越贵的机器里,钱正在从“负责计算的零件”,大量流向“负责记忆和存储的零件”。


请记住这个信号。因为这篇文章要讲的 DeepSeek,做的恰恰是一件相反的事:所有人都被时代推着,为越来越贵的内存支付 AI 硬件溢价。而它在想办法,在不削弱竞争力的前提下,通过软硬件融合,让这些昂贵的硬件提升 4 倍以上的 token 产能,也就是等效于节省了 75% 的硬件投资。


而这件事的尽头,近来有一个猜想在被热议——DeepSeek 能否通过自己的努力,为中国的 AI 基础设施建设节省一万亿美元?


这真的可能吗?


一万亿美元,是省出来的


刚才那张英伟达的报价单,是最近 AI 基建账本里最硬的一笔钱。在当前供需格局下,你要买最先进的 AI 机器,就必须接受这张账单。


DeepSeek 改变不了这件事。


它改变的是另一件事:同样一台机器,同样那 200 万美元的昂贵存储硬件,究竟能吐出多少 Token。


这个问题,在 DeepSeek V4 发布之后,变得尤其具体。


V4 更值得关注的,不只是模型本身,而是它展示出的三板斧:第一,继续压缩“记性”,让长上下文不再拖垮显存;第二,按需唤醒“身体”,让巨大的专家模型不必每次全员上阵;第三,把重复计算变成可复用资产,让算过的上下文不再一遍遍烧钱。



这些技术的特性部分呈现一个突出的特点——它们在软硬件协同上下了功夫,而非纯软件的优化。所以才有人用那个玩笑式的比喻——DeepSeek也许会成为中国最大的AI硬件公司。


它的模型页显示,在 100 万 Token 上下文场景下,V4-Pro 相比上一代只需要 27% 的单 Token 推理算力和 10% 的缓存占用。本文里,我们取约等于四分之一算力这个值来算后面的账。


传统路线下,这些硬件只能支撑一份吞吐,而通过长上下文压缩、按需激活、缓存复用与推理调度,DeepSeek 能让同样硬件的有效 Token 产出提升到四倍——那么成本不是被“砍掉”了,而是被摊薄了。原来 4 台机器干的活,现在 1 台也许就能干;原来每生成 1 个 Token 都要完整吃掉一份昂贵硬件成本,现在同一份硬件可以摊到 4 个 Token 上。


这就是 DeepSeek 真正厉害的地方:它没有改变英伟达的报价,却改变了英伟达机器在 AI 账本里的产出率。这件事的意义,远远大过一次 API 降价。


而 1 万亿美元这个数量级,也不是凭空假设出来的。


麦肯锡 2026 年那份《计算的成本》报告给了一个具体的数:到 2030 年,全球数据中心为跟上算力需求,需要约 6.7 万亿美元的投资,其中专门处理 AI 负载的那部分,就要吃掉约 5.2 万亿美元。


换句话说,未来几年里,全人类计划砸向 AI 硬件的钱,是以万亿美元为单位计量的。


而这笔巨款中的很大一部分,会流向那部分最尖端、最稀缺的硬件——也就是 HBM 高带宽显存和LPDDR 内存。DeepSeek 正在做的,就是系统性地降低整个中国AI产业对这部分昂贵硬件的依赖。哪怕只压低一部分,它替行业省下的,价值就将是万亿级的天文数字。


当中国的日均 Token 消耗从今天的一百多万亿,继续推向数百、数千个万亿时,任何一点单位 Token 成本的下降,都会被放大成巨额的基建差额。假如同样的吞吐真的可以用四分之一的硬件完成,那么在可见的未来,它就有可能为中国 AI 基建省下接近 1 万亿美元的算力硬件投资。


这是一道基础设施账:谁能让同样一笔刚性硬件开支生产出更多 Token,谁就在少建机房、少买 GPU、少堆显存,谁就在重新分配未来 AI 的入场券。


那么,DeepSeek 是怎么做到的?答案是,它给大模型这台机器,动了三刀。


两个油老虎


一种流行的误解是,大模型最烧钱的地方在于“思考”,在于运算。其实不是。


它真正的两个油老虎,一个叫“记性”,一个叫“身体”。而它们烧的,是同一种最贵的燃料——高带宽显存(HBM),一种直接集成在 GPU 封装体系内、速度极快也极昂贵的内存。


先说记性。大模型生成文字时有个笨拙的特点:每吐出一个新字,它都要回头把前面的全部内容重看一遍。因为语言的意义是层层铺垫出来的,后文该说什么,完全取决于前文已经铺设了怎样的语境。


这就像一位同声传译员。他没法只凭你的最后一句话就开口,而必须始终揣着你先前说过的一切——只有记着那些铺垫,他才能听懂此刻这句话真正的指向。你说得越久,他要记忆的就越多。


为了不在每个字上都从头重算(那会慢到没法用),模型会把已经算过的中间结果暂存起来。这份存档叫 KV 缓存(Key-Value Cache,可理解为模型的短期记忆)


麻烦在于,它会随着对话变长而疯狂膨胀。


举个具体的数:按某一类标准结构估算,处理约十二万字的上下文,光这份记性就可能吃掉 488GB 的高带宽显存。而英伟达即将交付的那颗顶级 Rubin GPU,单卡显存是 288GB。也就是说,光存这一份记性,就要占满将近一颗半、甚至接近两颗最先进 GPU 的全部显存——这时模型还没真正开始干活。


再说身体。模型的“身体”,指它的参数权重,可以粗略理解为它全部知识与能力的载体。能力越强,身体往往越庞大,动辄上千亿、上万亿个参数。


传统的稠密模型(Dense Model,指处理任何输入都要动用全部参数的模型)有个毛病:你不管问它什么,它都得把整个身体调动一遍。这就好比你去一家医院只想看个牙,结果全院所有科室的医生都被叫来,围着你从头到脚检查一轮,最后才轮到牙科。荒唐,但费用照单全收。


这副庞大的身体,同样得常驻在昂贵的高带宽显存里随时待命。


记性和身体,这两个油老虎,把整个硬件体系的价值分配,死死压在那部分最贵、最稀缺、最受制于人的硬件上。而过去十几年,行业的对策朴素而粗暴:算力不够就堆,显存不够就再堆。于是产业的财富,高度淤积在这条最尖端的硬件链条上,最肥的利润,卡在最稀缺的那一环。


Token 的价格,就这样被一种硬件的稀缺性绑架了。而DeepSeek 的三刀,恰好刀刀都在松这道绑。


第一刀:在大脑上动刀


第一刀,落在“记性”上。而它下刀的位置,恰恰是整台机器最不该碰、或说最没人敢碰的地方——注意力机制(Attention,大模型用来理解上下文关联的核心机制)


注意力机制是大模型的大脑。它能读懂上下文、能在长对话里抓住重点,全靠这套机制在每个字之间反复权衡关联。前面那份昂贵的记性,正是这颗大脑每一次脉动留下的产物。


想省记性,又怕风险,所以几乎所有人都选择绕开这颗大脑,只在外围动手。从 2019 年 Transformer 原作者之一 Noam Shazeer 提出的多查询注意力(MQA),到 2023 年谷歌提出、被 Llama 等广泛采用的分组查询注意力(GQA),主流路线的思路始终是“让多个查询头共用同一份记忆”——本质上是“少记几份、凑合用”。省地方的效果惊人,但代价是模型质量打折。说白了,这条路线的共识始终是“妥协”:默认压缩必然损伤质量,只在损伤多少之间讨价还价。


DeepSeek 偏不妥协。它选择直接在大脑上动刀,改造注意力机制本身。


它的方案叫多头潜在注意力(MLA,Multi-head Latent Attention),最早出现在 2024 年的 DeepSeek-V2 里。打个比方:别的模型记笔记,是把每个细节原样誊抄,写满好几大本;MLA 则先把笔记提炼成一份高度浓缩的摘要,只存摘要,用时再据摘要把细节精准还原。术语上这叫“低秩压缩”——把那些看似庞杂、实则高度冗余的记忆,投影进一个紧凑得多的空间里存放。


效果有多惊人?DeepSeek-V2 论文给出的结果是,相比上一代同门模型,V2 在能力更强的同时,训练成本降低 42.5%,KV Cache 减少 93.3%,最大生成吞吐提升到 5.76 倍。前面那个吃掉 488GB 的例子,换成这一路线,就可能被压到几个 GB 的量级。


但真正牛的,不是省了多少,而是它几乎没付细节损失的代价。


按常理,把一本书压成一页摘要,再怎么还原也找不回所有细节了。可在 DeepSeek 公布的实验里,这份压缩版的记忆,效果不仅没输给“誊抄全本”的标准注意力,某些情况下还略好一点。


到 V4,这条路线又被推向了更极端的长上下文场景:V4-Pro 采用混合注意力架构,在 100 万 Token 上下文设定下,相比上一代只需要 27% 的推理算力和 10% 的缓存占用。


要体会这有多难,得知道这是在一架飞行中的飞机上动手术。改注意力机制,意味着要重写模型最底层的计算逻辑、重新训练整个模型、重做支撑它运行的整套服务系统。任一环出错,智能就崩了。这不是给轮胎换个气嘴,是开颅手术。


而 DeepSeek 做到了,让 AI 在术后比术前还健康。


第二刀与第三刀:给机器装上编号的储物柜


第一刀降伏了记性。第二刀,对付那个庞大的“身体”。


这一刀的思路,DeepSeek 不是首创,而是接续了一条清晰的老路:混合专家(MoE),指把模型拆成许多“专家”、每次只调用其中少数几个的结构。


这个概念 1991 年就有了,2017 年由 Shazeer 等人引入神经网络,随后谷歌的 GShard、Switch Transformer 把它搬进 Transformer;真正让它出圈的,是 2023 年底法国 Mistral 公司那个只甩了个种子链接就发布的 Mixtral 8x7B——总参数约 467 亿,但处理每个字时只激活约 129 亿。


回到那家“看牙却惊动全院”的医院。MoE做的,就是把它改造成一家分科明确的医院:你来看牙,前台直接把你引到口腔科,其余科室的医生该干嘛干嘛。医院的总人数照样庞大,参数总量可以上千亿、数千亿,但每次真正出动的,只是其中很小一部分。


DeepSeek 在 V3 里把这条路线推到了相当激进的规模,到 V4 时代更夸张——V4-Pro 是 1.6 万亿总参数、490 亿激活参数;V4-Flash 是 2840 亿总参数、130 亿激活参数。也就是说,模型的“总身体”继续变大,但每一步真正动起来的部分,仍然被压在很小的一块。


但第二刀真正的巧思,不止于“少出动几个医生”。它顺势改造了模型存取这些“身体”的方式。


这里可以换一个更贴切的画面。过去的大模型,像一个巨大却毫无章法的储物间:东西全堆在一起,每次哪怕只想取一样,都得拉开大门,从最底层开始,把所有东西翻一遍才找得到。为了让这种翻找足够快以应付盈门的顾客,你只能把整个储物间都搬进最贵的“市中心铺面”——也就是高带宽显存里。


DeepSeek 把这个储物间,改造成了一个有上万个格子、每个格子都编了号的柜子。想用哪样东西,按编号直接拉开对应的那个格子就行,绝不去碰其余的。这意味着,你再也不需要把整柜东西都堆在最贵的铺面里了。绝大多数暂时用不上的格子,完全可以放进便宜得多的普通内存(LPDDR),甚至更便宜的固态硬盘里,要用时再快速调出那一格。围绕这类卸载与流式加载,DeepSeek 生态和 SGLang 等开源推理系统都在持续探索。


到这里,三刀里头两刀的协同就出来了:第一刀把“记性”压小,第二刀给“身体”编上号、只取该取的那一格。两刀合起来,这台机器在任一时刻,真正需要占用最贵显存的部分,都被压到了极低。


第三刀,则把这套“按编号取用”的逻辑推到了极致:连“运算”这个动作,能省则省。有些计算结果,其实可以提前算好、当成一个个编了号的格子存起来,用时直接取,而不必每次重算。就像背熟乘法口诀的人,不会每次掰手指算七乘八,而是张口报五十六。这等于用成本极低的“查取”(内存读取),顶替成本极高的“硬算”(芯片运算)


在 V4 里,这一刀有了更直接的商业化表达:缓存命中价被压得极低,长上下文复用被直接写进价格体系——重复计算不只是技术上可以省,商业上也被鼓励去省。


三刀连起来看,它们不是三件孤立的事,而是同一套逻辑的层层递进:把一个非翻不可的烂摊子,改造成一个事事都能按编号精准取用的系统。记性压到最小,身体只唤醒该唤醒的,运算能查表就不重算。每一刀都让这台机器对最贵硬件的占用更小一点,三刀叠在一起,它跑同样的活,对最尖端硬件的消耗,就只有从前的零头。


便宜到什么程度


2026 年 5 月,DeepSeek 宣布将 V4-Pro 此前 75% 的折扣价转为长期价格,把缓存命中、缓存未命中、输出 Token 的价格拉开了巨大差距。缓存命中价之所以重要,是因为它把 DeepSeek 的第三刀直接变成了商业规则:算过的上下文,不该一遍遍按“新活”收费。


放到真实账单里对比,落差才具体。按一个每月跑十亿 token 的中等规模应用算,同样的工作量:用 DeepSeek V4-Pro,月账单约 522 美元;换成 Claude Opus 4.7,约 9000 美元;换成 GPT-5.5,约 1 万美元。差距是十七到十九倍。


再看一个极端但常见的场景:一个长上下文编程助手,反复重读一份 10 万 Token 的代码库一百次。靠着便宜到几乎免费的缓存命中,DeepSeek 这一趟只花约 0.036 美元;同样的活,GPT-5.5 和 Claude Opus 4.7 都要约 5 美元——差出一百多倍。


这个价格低到爆,但它不是赔本赚吆喝,而是这台改装过的机器,本就跑得这么省——是中国人靠工程一点点抠出来的成本。两年前梁文锋谈定价时说过,原则是“不贴钱,也不赚取暴利”。其实应该这么理解:当你的成本结构和别人根本不在同一条线上,你的定价自然也不在同一个区间。


当然,这场改装并非稳赚不赔。比如把负载挪到便宜内存和硬盘,已有研究指出,频繁搬运可能在耗电、延迟和调度复杂度上吃亏。某些情况下,每生成一个字的系统总成本未必更低,除非硬件、软件栈和存储介质都进一步优化。所以这三刀是一门火候极难拿捏的权衡,不是无脑省钱。但方向是确定的:用便宜的、自己更容易获得的资源,去替换那个最贵、最被掐住喉咙的资源。


把“一万亿”算成一笔看得见的账


说了这么多“省”,不妨把它换成一个更直观的画面:少建多少座智算中心?


先看 Token 流量。国家口径是,到 2026 年 3 月,中国日均 Token 调用量已经超过 140 万亿,相比 2024 年初增长了一千多倍。产业口径上,单是豆包大模型,同月日均使用量也突破了 120 万亿。统计边界虽不相同,但它们共同说明一件事:中国 AI 的 Token 消耗,已经进入百万亿级日常运行,并正在向千万亿级快速推进。所以,500 万亿 Token/日,可以看作不远的下一站;而 5000 万亿 Token/日,则是智能体、多模态、代码生成全面铺开后的高流量情景。


在这个背景下,再看算力中心成本,DeepSeek 的价值才凸显。2025 年,中国联通在武汉开建千卡智算推理中心,首期投资近 2 亿元。我们可以粗略把它视作一个千卡级推理中心的投资样本:一座这样的中心,大约 2 亿元。


而按 DeepSeek V4 的效率提升来算,至少在它擅长的长上下文场景里,给出的变化已经不是百分之十几的优化,而是数倍级别的硬件效率提升。我们不取最激进的口径,而是取一个更保守、更容易理解的假设:V4 这套三板斧,让同样一批硬件的有效 Token 吞吐提升 4 倍。也就是说,原来要 4 座中心干的活,现在 1 座够了,中间少掉 3 座,等于节省 75% 的等效硬件投资。


注意,DeepSeek 不是简单少用存储。恰恰相反,它是在善用存储——用压缩注意力、按需激活、缓存命中和推理调度,把最贵的 GPU 与显存时间用得更狠。真正被省掉的,是同等 Token 吞吐下,本来还要额外购买的那部分硬件。


那么,一万亿美元对应什么?1 万亿美元约等于 7 万亿元人民币。按每座千卡级推理中心 2 亿元计算,7 万亿元相当于 3.5 万座这样的中心。如果 V4 路线带来 4 倍有效吞吐提升,要少建 3.5 万座这样的等效中心,对应的日均 Token 流量,大约就是 5000 万亿。


这就是本文所说的“一万亿美元”所对应的产业图景。这不是工程招标书里的精确核算,而是一笔基础设施量级账,对应的也是未来数年、而非当下就已兑现的流量情景。它真正要说明的是:在低调用量时代,效率提升省下的是几张卡、几个机柜;在数千个万亿 Token/日的时代,效率提升省下的,就是成千上万座本该拔地而起的智算中心。


所以,DeepSeek 真正改变的不是某次调用的价格,而是未来 AI 基建的账本。


它逆转了一个危险的趋势


现在,回到开头那台机器。还记得吗?Vera Rubin 那 780 万美元里,有 200 万压在内存上,而且这部分还在疯狂涨价。这透露出一个危险的趋势——整个行业的价值,被越来越多地、不健康地绑死在内存芯片上。而内存,本不该被推到这么贵。


很多人误以为 DeepSeek 是在“顺应”这个趋势,因为它也在大量使用内存。恰恰相反,DeepSeek 是在逆转它。老办法是被动地、低效地吞噬硬件,把价值倒挂地堆在芯片上,任由内存被涨价潮推着走;DeepSeek 是先用三刀把对硬件的真实需求大幅压低,再把剩下的少量需求,精明地分配给最便宜、最合适的那一档存储。前者是“被价格推着走”,后者是“先把账算明白,再决定花在哪”。


这个区别,对中国格外重要。因为它把战场,从一个我们处于劣势的地方,挪到了一个我们更有胜算的地方。最尖端的算力芯片,我们暂时追不上。但内存这类存储芯片,恰恰是中国今年实打实补上来的能力。


国产 DRAM 龙头长鑫存储,2026 年第一季度营收达到 508 亿元,净利润约 250 亿元,公司预计上半年净利润将达 660 亿到 750 亿元,相当于半年就赚到了字节跳动去年的全年净利润。虽然长鑫在全球 DRAM 市场仍然只是第四把交椅,但这块过去几乎为零的国产产能,今年终于支棱了起来。


而这,正是 DeepSeek 那三刀的战略意义所在。这不是“用存储替代算力”,而是降低对最稀缺算力的边际依赖,并把一部分压力转移到更可获得的存储、缓存和系统工程上。当一台 AI 机器更多倚重内存、缓存、调度和系统工程这些我们自己更有机会掌握的环节,中国现有的供应链,就突然从“处处受制”变得“够用”,甚至“好用”。这极大地提升了整条链路的安全性。


结语


一个把“消灭低效”当本能的梁文锋,不会满足于让某个模型便宜一点。他盯上的,是整个 AI 产业里最大的那处低效——“想要更强的智能,就必须依赖最尖端、最稀缺、最贵的硬件”这个被全行业当成天经地义的前提。


如果它能让整个行业,用少得多的尖端硬件办成同样的事,它为行业凭空省下的,就是一座万亿量级的、虚拟的产能基地——不占一寸厂房,却实实在在地释放出本该砸进硬件的巨额投资。那个“一万亿”,于是不再是一个估值故事,而是一道基础设施账。


把 DeepSeek 写成“用算法消灭英伟达”,是另一种廉价神话。但如果换一种问法,答案就有意思了:DeepSeek 有没有可能让行业少买一部分最贵的硬件,少占用一部分最稀缺的显存,少支付一部分原本被认为天经地义的推理成本?有。它有没有可能把 AI 基础设施的价值,从单一的高端 GPU 叙事,重新分配到模型结构、推理系统、缓存管理、存储调度和工程优化上?也有。这才是它真正的产业意义。


真正的技术革命,往往不是把一切变得更贵,而是让过去只有少数人用得起的东西,突然变成大多数人也能负担的日常基础设施。从更大的维度看,这盘棋真正要紧的,从来不是省下了多少钱,而是省钱这件事,悄悄把通往未来的入场券,重新发到了需要被 AI 赋能的中国千行百业里。


(本文基于公开资料与行业讨论梳理而成。文中部分前瞻判断,如万亿量级的基础设施替代价值、硬件能效的权衡、等效成本的换算等,属于行业推演与争议中的观点,并非已成定论的事实,请读者审慎看待。)


本文来自微信公众号:胡说成理,作者:胡喆

AI原生产品日报频道: 前沿科技
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定