DeepSeek通过软硬件融合优化提升AI硬件Token产能，可降低对高端稀缺硬件的依赖，未来或为中国AI基建省下近1万亿美元。 ## 1. 万亿节省猜想的来源 AI基建成本中，存储尤其是高带宽显存涨价飞快，成本占比越来越高。DeepSeek通过技术优化，可让相同硬件的有效Token产出提升4倍，等效节省75%硬件投资。麦肯锡预测到2030年全球AI硬件投资将达5.2万亿美元，若中国未来日均Token消耗达数千兆，按四分之一的硬件需求计算，DeepSeek可省下近1万亿美元投资。 ## 2. DeepSeek的三刀优化：直击大模型成本痛点大模型最耗昂贵高带宽显存的不是运算，而是两个“油老虎”：存放上下文中间结果的KV缓存，以及常驻显存的全部模型参数，传统路线只能靠堆硬件解决，成本被稀缺硬件绑架。 ### 第一刀：改造注意力机制压缩“记性” 主流路线靠共用记忆压缩KV缓存，会损伤模型质量，DeepSeek不走妥协路线，直接改造注意力机制推出MLA，通过低秩压缩浓缩记忆，DeepSeek-V4-Pro在100万Token上下文场景下，仅需要10%的缓存占用和27%的推理算力，且几乎不损失模型效果。 ### 第二刀：MoE结构改造存取“身体” DeepSeek采用混合专家MoE结构，每次推理仅激活少量参数，同时将模型参数分块编号存储，绝大多数不用的参数可放在低价普通内存甚至固态硬盘中，大幅降低高带宽显存占用。 ### 第三刀：复用计算缓存减少重复运算将已完成的计算结果提前存储，用时直接调取，用低成本读取代替高成本运算，DeepSeek还将该优化落地到商业定价中，鼓励缓存复用。 ## 3. 优化带来的成本落差与产业价值按同等工作量计算：月跑十亿Token的中等规模应用，DeepSeek V4-Pro月费约522美元，GPT-5.5、Claude Opus 4.7约为9000-10000美元，差距达17-19倍；反复读取10万Token代码库一百次，DeepSeek仅需约0.036美元，竞品约5美元，差距超百倍，该低价来自真实成本下降而非赔本赚吆喝。 ## 4. 对中国AI产业的战略意义该路线不是用存储替代算力，而是降低对最稀缺尖端GPU的依赖，将压力转移到我们更有产能优势的存储和工程领域，适配中国当前供应链现状，提升AI产业供应链安全。它重构了AI基建的成本逻辑，把未来AI的入场券重新分配给千行百业，让更多主体能负担AI基础设施，符合技术革命普惠化的方向。

2026-06-01 19:27

Deepseek能否为中国节省1万亿美元？

胡说成理

本文来自微信公众号：胡说成理，作者：胡喆，题图来自：视觉中国

2026 年下半年，英伟达将交付它迄今最强大的 AI 平台：Vera Rubin VR200 NVL72。一个整机柜里塞进 72 颗 Rubin GPU 和 36 颗 Vera CPU。摩根士丹利估算，这台机器的物料成本约为 780 万美元。

这个数字已经够吓人了。但更值得盯住的，是它的钱花在了哪里。

在这 780 万里，有大约 200 万美元，既没花在那颗举世闻名的 GPU 芯片上，也没花在运算核心上，而是花在了内存上——高带宽显存（HBM4）与普通内存（LPDDR5X）。仅仅一年之间，这部分内存的成本就因为涨价飙升了 435%。

这是一个信号。在 AI 这台越来越贵的机器里，钱正在从“负责计算的零件”，大量流向“负责记忆和存储的零件”。

请记住这个信号。因为这篇文章要讲的 DeepSeek，做的恰恰是一件相反的事：所有人都被时代推着，为越来越贵的内存支付 AI 硬件溢价。而它在想办法，在不削弱竞争力的前提下，通过软硬件融合，让这些昂贵的硬件提升 4 倍以上的 token 产能，也就是等效于节省了 75% 的硬件投资。

而这件事的尽头，近来有一个猜想在被热议——DeepSeek 能否通过自己的努力，为中国的 AI 基础设施建设节省一万亿美元？

这真的可能吗？

一万亿美元，是省出来的

刚才那张英伟达的报价单，是最近 AI 基建账本里最硬的一笔钱。在当前供需格局下，你要买最先进的 AI 机器，就必须接受这张账单。

DeepSeek 改变不了这件事。

它改变的是另一件事：同样一台机器，同样那 200 万美元的昂贵存储硬件，究竟能吐出多少 Token。

这个问题，在 DeepSeek V4 发布之后，变得尤其具体。

V4 更值得关注的，不只是模型本身，而是它展示出的三板斧：第一，继续压缩“记性”，让长上下文不再拖垮显存；第二，按需唤醒“身体”，让巨大的专家模型不必每次全员上阵；第三，把重复计算变成可复用资产，让算过的上下文不再一遍遍烧钱。

这些技术的特性部分呈现一个突出的特点——它们在软硬件协同上下了功夫，而非纯软件的优化。所以才有人用那个玩笑式的比喻——DeepSeek也许会成为中国最大的AI硬件公司。

它的模型页显示，在 100 万 Token 上下文场景下，V4-Pro 相比上一代只需要 27% 的单 Token 推理算力和 10% 的缓存占用。本文里，我们取约等于四分之一算力这个值来算后面的账。

传统路线下，这些硬件只能支撑一份吞吐，而通过长上下文压缩、按需激活、缓存复用与推理调度，DeepSeek 能让同样硬件的有效 Token 产出提升到四倍——那么成本不是被“砍掉”了，而是被摊薄了。原来 4 台机器干的活，现在 1 台也许就能干；原来每生成 1 个 Token 都要完整吃掉一份昂贵硬件成本，现在同一份硬件可以摊到 4 个 Token 上。

这就是 DeepSeek 真正厉害的地方：它没有改变英伟达的报价，却改变了英伟达机器在 AI 账本里的产出率。这件事的意义，远远大过一次 API 降价。

而 1 万亿美元这个数量级，也不是凭空假设出来的。

麦肯锡 2026 年那份《计算的成本》报告给了一个具体的数：到 2030 年，全球数据中心为跟上算力需求，需要约 6.7 万亿美元的投资，其中专门处理 AI 负载的那部分，就要吃掉约 5.2 万亿美元。

换句话说，未来几年里，全人类计划砸向 AI 硬件的钱，是以万亿美元为单位计量的。

而这笔巨款中的很大一部分，会流向那部分最尖端、最稀缺的硬件——也就是 HBM 高带宽显存和LPDDR 内存。DeepSeek 正在做的，就是系统性地降低整个中国AI产业对这部分昂贵硬件的依赖。哪怕只压低一部分，它替行业省下的，价值就将是万亿级的天文数字。

当中国的日均 Token 消耗从今天的一百多万亿，继续推向数百、数千个万亿时，任何一点单位 Token 成本的下降，都会被放大成巨额的基建差额。假如同样的吞吐真的可以用四分之一的硬件完成，那么在可见的未来，它就有可能为中国 AI 基建省下接近 1 万亿美元的算力硬件投资。

这是一道基础设施账：谁能让同样一笔刚性硬件开支生产出更多 Token，谁就在少建机房、少买 GPU、少堆显存，谁就在重新分配未来 AI 的入场券。

那么，DeepSeek 是怎么做到的？答案是，它给大模型这台机器，动了三刀。

两个油老虎

一种流行的误解是，大模型最烧钱的地方在于“思考”，在于运算。其实不是。

它真正的两个油老虎，一个叫“记性”，一个叫“身体”。而它们烧的，是同一种最贵的燃料——高带宽显存（HBM），一种直接集成在 GPU 封装体系内、速度极快也极昂贵的内存。

先说记性。大模型生成文字时有个笨拙的特点：每吐出一个新字，它都要回头把前面的全部内容重看一遍。因为语言的意义是层层铺垫出来的，后文该说什么，完全取决于前文已经铺设了怎样的语境。

这就像一位同声传译员。他没法只凭你的最后一句话就开口，而必须始终揣着你先前说过的一切——只有记着那些铺垫，他才能听懂此刻这句话真正的指向。你说得越久，他要记忆的就越多。

为了不在每个字上都从头重算（那会慢到没法用），模型会把已经算过的中间结果暂存起来。这份存档叫 KV 缓存（Key-Value Cache，可理解为模型的短期记忆）。

麻烦在于，它会随着对话变长而疯狂膨胀。

举个具体的数：按某一类标准结构估算，处理约十二万字的上下文，光这份记性就可能吃掉 488GB 的高带宽显存。而英伟达即将交付的那颗顶级 Rubin GPU，单卡显存是 288GB。也就是说，光存这一份记性，就要占满将近一颗半、甚至接近两颗最先进 GPU 的全部显存——这时模型还没真正开始干活。

再说身体。模型的“身体”，指它的参数权重，可以粗略理解为它全部知识与能力的载体。能力越强，身体往往越庞大，动辄上千亿、上万亿个参数。

传统的稠密模型（Dense Model，指处理任何输入都要动用全部参数的模型）有个毛病：你不管问它什么，它都得把整个身体调动一遍。这就好比你去一家医院只想看个牙，结果全院所有科室的医生都被叫来，围着你从头到脚检查一轮，最后才轮到牙科。荒唐，但费用照单全收。

这副庞大的身体，同样得常驻在昂贵的高带宽显存里随时待命。

记性和身体，这两个油老虎，把整个硬件体系的价值分配，死死压在那部分最贵、最稀缺、最受制于人的硬件上。而过去十几年，行业的对策朴素而粗暴：算力不够就堆，显存不够就再堆。于是产业的财富，高度淤积在这条最尖端的硬件链条上，最肥的利润，卡在最稀缺的那一环。

Token 的价格，就这样被一种硬件的稀缺性绑架了。而DeepSeek 的三刀，恰好刀刀都在松这道绑。

第一刀：在大脑上动刀

第一刀，落在“记性”上。而它下刀的位置，恰恰是整台机器最不该碰、或说最没人敢碰的地方——注意力机制（Attention，大模型用来理解上下文关联的核心机制）。

注意力机制是大模型的大脑。它能读懂上下文、能在长对话里抓住重点，全靠这套机制在每个字之间反复权衡关联。前面那份昂贵的记性，正是这颗大脑每一次脉动留下的产物。

想省记性，又怕风险，所以几乎所有人都选择绕开这颗大脑，只在外围动手。从 2019 年 Transformer 原作者之一 Noam Shazeer 提出的多查询注意力（MQA），到 2023 年谷歌提出、被 Llama 等广泛采用的分组查询注意力（GQA），主流路线的思路始终是“让多个查询头共用同一份记忆”——本质上是“少记几份、凑合用”。省地方的效果惊人，但代价是模型质量打折。说白了，这条路线的共识始终是“妥协”：默认压缩必然损伤质量，只在损伤多少之间讨价还价。

DeepSeek 偏不妥协。它选择直接在大脑上动刀，改造注意力机制本身。

它的方案叫多头潜在注意力（MLA，Multi-head Latent Attention），最早出现在 2024 年的 DeepSeek-V2 里。打个比方：别的模型记笔记，是把每个细节原样誊抄，写满好几大本；MLA 则先把笔记提炼成一份高度浓缩的摘要，只存摘要，用时再据摘要把细节精准还原。术语上这叫“低秩压缩”——把那些看似庞杂、实则高度冗余的记忆，投影进一个紧凑得多的空间里存放。

效果有多惊人？DeepSeek-V2 论文给出的结果是，相比上一代同门模型，V2 在能力更强的同时，训练成本降低 42.5%，KV Cache 减少 93.3%，最大生成吞吐提升到 5.76 倍。前面那个吃掉 488GB 的例子，换成这一路线，就可能被压到几个 GB 的量级。

但真正牛的，不是省了多少，而是它几乎没付细节损失的代价。

按常理，把一本书压成一页摘要，再怎么还原也找不回所有细节了。可在 DeepSeek 公布的实验里，这份压缩版的记忆，效果不仅没输给“誊抄全本”的标准注意力，某些情况下还略好一点。

到 V4，这条路线又被推向了更极端的长上下文场景：V4-Pro 采用混合注意力架构，在 100 万 Token 上下文设定下，相比上一代只需要 27% 的推理算力和 10% 的缓存占用。

要体会这有多难，得知道这是在一架飞行中的飞机上动手术。改注意力机制，意味着要重写模型最底层的计算逻辑、重新训练整个模型、重做支撑它运行的整套服务系统。任一环出错，智能就崩了。这不是给轮胎换个气嘴，是开颅手术。

而 DeepSeek 做到了，让 AI 在术后比术前还健康。

第二刀与第三刀：给机器装上编号的储物柜

第一刀降伏了记性。第二刀，对付那个庞大的“身体”。

这一刀的思路，DeepSeek 不是首创，而是接续了一条清晰的老路：混合专家（MoE），指把模型拆成许多“专家”、每次只调用其中少数几个的结构。

这个概念 1991 年就有了，2017 年由 Shazeer 等人引入神经网络，随后谷歌的 GShard、Switch Transformer 把它搬进 Transformer；真正让它出圈的，是 2023 年底法国 Mistral 公司那个只甩了个种子链接就发布的 Mixtral 8x7B——总参数约 467 亿，但处理每个字时只激活约 129 亿。

回到那家“看牙却惊动全院”的医院。MoE做的，就是把它改造成一家分科明确的医院：你来看牙，前台直接把你引到口腔科，其余科室的医生该干嘛干嘛。医院的总人数照样庞大，参数总量可以上千亿、数千亿，但每次真正出动的，只是其中很小一部分。

DeepSeek 在 V3 里把这条路线推到了相当激进的规模，到 V4 时代更夸张——V4-Pro 是 1.6 万亿总参数、490 亿激活参数；V4-Flash 是 2840 亿总参数、130 亿激活参数。也就是说，模型的“总身体”继续变大，但每一步真正动起来的部分，仍然被压在很小的一块。

但第二刀真正的巧思，不止于“少出动几个医生”。它顺势改造了模型存取这些“身体”的方式。

这里可以换一个更贴切的画面。过去的大模型，像一个巨大却毫无章法的储物间：东西全堆在一起，每次哪怕只想取一样，都得拉开大门，从最底层开始，把所有东西翻一遍才找得到。为了让这种翻找足够快以应付盈门的顾客，你只能把整个储物间都搬进最贵的“市中心铺面”——也就是高带宽显存里。

DeepSeek 把这个储物间，改造成了一个有上万个格子、每个格子都编了号的柜子。想用哪样东西，按编号直接拉开对应的那个格子就行，绝不去碰其余的。这意味着，你再也不需要把整柜东西都堆在最贵的铺面里了。绝大多数暂时用不上的格子，完全可以放进便宜得多的普通内存（LPDDR），甚至更便宜的固态硬盘里，要用时再快速调出那一格。围绕这类卸载与流式加载，DeepSeek 生态和 SGLang 等开源推理系统都在持续探索。

到这里，三刀里头两刀的协同就出来了：第一刀把“记性”压小，第二刀给“身体”编上号、只取该取的那一格。两刀合起来，这台机器在任一时刻，真正需要占用最贵显存的部分，都被压到了极低。

第三刀，则把这套“按编号取用”的逻辑推到了极致：连“运算”这个动作，能省则省。有些计算结果，其实可以提前算好、当成一个个编了号的格子存起来，用时直接取，而不必每次重算。就像背熟乘法口诀的人，不会每次掰手指算七乘八，而是张口报五十六。这等于用成本极低的“查取”（内存读取），顶替成本极高的“硬算”（芯片运算）。

在 V4 里，这一刀有了更直接的商业化表达：缓存命中价被压得极低，长上下文复用被直接写进价格体系——重复计算不只是技术上可以省，商业上也被鼓励去省。

三刀连起来看，它们不是三件孤立的事，而是同一套逻辑的层层递进：把一个非翻不可的烂摊子，改造成一个事事都能按编号精准取用的系统。记性压到最小，身体只唤醒该唤醒的，运算能查表就不重算。每一刀都让这台机器对最贵硬件的占用更小一点，三刀叠在一起，它跑同样的活，对最尖端硬件的消耗，就只有从前的零头。

便宜到什么程度

2026 年 5 月，DeepSeek 宣布将 V4-Pro 此前 75% 的折扣价转为长期价格，把缓存命中、缓存未命中、输出 Token 的价格拉开了巨大差距。缓存命中价之所以重要，是因为它把 DeepSeek 的第三刀直接变成了商业规则：算过的上下文，不该一遍遍按“新活”收费。

放到真实账单里对比，落差才具体。按一个每月跑十亿 token 的中等规模应用算，同样的工作量：用 DeepSeek V4-Pro，月账单约 522 美元；换成 Claude Opus 4.7，约 9000 美元；换成 GPT-5.5，约 1 万美元。差距是十七到十九倍。

再看一个极端但常见的场景：一个长上下文编程助手，反复重读一份 10 万 Token 的代码库一百次。靠着便宜到几乎免费的缓存命中，DeepSeek 这一趟只花约 0.036 美元；同样的活，GPT-5.5 和 Claude Opus 4.7 都要约 5 美元——差出一百多倍。

这个价格低到爆，但它不是赔本赚吆喝，而是这台改装过的机器，本就跑得这么省——是中国人靠工程一点点抠出来的成本。两年前梁文锋谈定价时说过，原则是“不贴钱，也不赚取暴利”。其实应该这么理解：当你的成本结构和别人根本不在同一条线上，你的定价自然也不在同一个区间。

当然，这场改装并非稳赚不赔。比如把负载挪到便宜内存和硬盘，已有研究指出，频繁搬运可能在耗电、延迟和调度复杂度上吃亏。某些情况下，每生成一个字的系统总成本未必更低，除非硬件、软件栈和存储介质都进一步优化。所以这三刀是一门火候极难拿捏的权衡，不是无脑省钱。但方向是确定的：用便宜的、自己更容易获得的资源，去替换那个最贵、最被掐住喉咙的资源。

把“一万亿”算成一笔看得见的账

说了这么多“省”，不妨把它换成一个更直观的画面：少建多少座智算中心？

先看 Token 流量。国家口径是，到 2026 年 3 月，中国日均 Token 调用量已经超过 140 万亿，相比 2024 年初增长了一千多倍。产业口径上，单是豆包大模型，同月日均使用量也突破了 120 万亿。统计边界虽不相同，但它们共同说明一件事：中国 AI 的 Token 消耗，已经进入百万亿级日常运行，并正在向千万亿级快速推进。所以，500 万亿 Token/日，可以看作不远的下一站；而 5000 万亿 Token/日，则是智能体、多模态、代码生成全面铺开后的高流量情景。

在这个背景下，再看算力中心成本，DeepSeek 的价值才凸显。2025 年，中国联通在武汉开建千卡智算推理中心，首期投资近 2 亿元。我们可以粗略把它视作一个千卡级推理中心的投资样本：一座这样的中心，大约 2 亿元。

而按 DeepSeek V4 的效率提升来算，至少在它擅长的长上下文场景里，给出的变化已经不是百分之十几的优化，而是数倍级别的硬件效率提升。我们不取最激进的口径，而是取一个更保守、更容易理解的假设：V4 这套三板斧，让同样一批硬件的有效 Token 吞吐提升 4 倍。也就是说，原来要 4 座中心干的活，现在 1 座够了，中间少掉 3 座，等于节省 75% 的等效硬件投资。

注意，DeepSeek 不是简单少用存储。恰恰相反，它是在善用存储——用压缩注意力、按需激活、缓存命中和推理调度，把最贵的 GPU 与显存时间用得更狠。真正被省掉的，是同等 Token 吞吐下，本来还要额外购买的那部分硬件。

那么，一万亿美元对应什么？1 万亿美元约等于 7 万亿元人民币。按每座千卡级推理中心 2 亿元计算，7 万亿元相当于 3.5 万座这样的中心。如果 V4 路线带来 4 倍有效吞吐提升，要少建 3.5 万座这样的等效中心，对应的日均 Token 流量，大约就是 5000 万亿。

这就是本文所说的“一万亿美元”所对应的产业图景。这不是工程招标书里的精确核算，而是一笔基础设施量级账，对应的也是未来数年、而非当下就已兑现的流量情景。它真正要说明的是：在低调用量时代，效率提升省下的是几张卡、几个机柜；在数千个万亿 Token/日的时代，效率提升省下的，就是成千上万座本该拔地而起的智算中心。

所以，DeepSeek 真正改变的不是某次调用的价格，而是未来 AI 基建的账本。

它逆转了一个危险的趋势

现在，回到开头那台机器。还记得吗？Vera Rubin 那 780 万美元里，有 200 万压在内存上，而且这部分还在疯狂涨价。这透露出一个危险的趋势——整个行业的价值，被越来越多地、不健康地绑死在内存芯片上。而内存，本不该被推到这么贵。

很多人误以为 DeepSeek 是在“顺应”这个趋势，因为它也在大量使用内存。恰恰相反，DeepSeek 是在逆转它。老办法是被动地、低效地吞噬硬件，把价值倒挂地堆在芯片上，任由内存被涨价潮推着走；DeepSeek 是先用三刀把对硬件的真实需求大幅压低，再把剩下的少量需求，精明地分配给最便宜、最合适的那一档存储。前者是“被价格推着走”，后者是“先把账算明白，再决定花在哪”。

这个区别，对中国格外重要。因为它把战场，从一个我们处于劣势的地方，挪到了一个我们更有胜算的地方。最尖端的算力芯片，我们暂时追不上。但内存这类存储芯片，恰恰是中国今年实打实补上来的能力。

国产 DRAM 龙头长鑫存储，2026 年第一季度营收达到 508 亿元，净利润约 250 亿元，公司预计上半年净利润将达 660 亿到 750 亿元，相当于半年就赚到了字节跳动去年的全年净利润。虽然长鑫在全球 DRAM 市场仍然只是第四把交椅，但这块过去几乎为零的国产产能，今年终于支棱了起来。

而这，正是 DeepSeek 那三刀的战略意义所在。这不是“用存储替代算力”，而是降低对最稀缺算力的边际依赖，并把一部分压力转移到更可获得的存储、缓存和系统工程上。当一台 AI 机器更多倚重内存、缓存、调度和系统工程这些我们自己更有机会掌握的环节，中国现有的供应链，就突然从“处处受制”变得“够用”，甚至“好用”。这极大地提升了整条链路的安全性。

结语

一个把“消灭低效”当本能的梁文锋，不会满足于让某个模型便宜一点。他盯上的，是整个 AI 产业里最大的那处低效——“想要更强的智能，就必须依赖最尖端、最稀缺、最贵的硬件”这个被全行业当成天经地义的前提。

如果它能让整个行业，用少得多的尖端硬件办成同样的事，它为行业凭空省下的，就是一座万亿量级的、虚拟的产能基地——不占一寸厂房，却实实在在地释放出本该砸进硬件的巨额投资。那个“一万亿”，于是不再是一个估值故事，而是一道基础设施账。

把 DeepSeek 写成“用算法消灭英伟达”，是另一种廉价神话。但如果换一种问法，答案就有意思了：DeepSeek 有没有可能让行业少买一部分最贵的硬件，少占用一部分最稀缺的显存，少支付一部分原本被认为天经地义的推理成本？有。它有没有可能把 AI 基础设施的价值，从单一的高端 GPU 叙事，重新分配到模型结构、推理系统、缓存管理、存储调度和工程优化上？也有。这才是它真正的产业意义。

真正的技术革命，往往不是把一切变得更贵，而是让过去只有少数人用得起的东西，突然变成大多数人也能负担的日常基础设施。从更大的维度看，这盘棋真正要紧的，从来不是省下了多少钱，而是省钱这件事，悄悄把通往未来的入场券，重新发到了需要被 AI 赋能的中国千行百业里。

（本文基于公开资料与行业讨论梳理而成。文中部分前瞻判断，如万亿量级的基础设施替代价值、硬件能效的权衡、等效成本的换算等，属于行业推演与争议中的观点，并非已成定论的事实，请读者审慎看待。）

本文来自微信公众号：胡说成理，作者：胡喆

AI原生产品日报频道: 前沿科技

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定