谷歌发布的TurboQuant压缩算法通过两阶段技术将LLM的KV缓存内存占用减少6倍、速度提升8倍，引发内存股暴跌，预示硬件需求可能下降。 ## 1. TurboQuant技术原理与突破 - **两阶段压缩架构**：首阶段通过随机旋转和极坐标转换（PolarQuant）简化数据几何形状，节省内存；次阶段用1 bit的QJL变换校准内积偏差，实现零精度损失。 - **关键数据**：KV缓存压缩超5倍仍保持完美召回率，3.5 bit压缩下质量无损，H100 GPU上4 bit版本速度比32 bit快8倍。 ## 2. 对内存硬件市场的冲击 - **需求预期逆转**：技术普及后，AI公司推理硬件成本或降低，原需8张高端显卡的模型可能仅需2-3张，削弱内存芯片增长预期。 - **市场反应**：闪迪跌6.5%，希捷/西部数据/美光跌4%-5%，投资者质疑金融市场对一年前论文的过度反应。 ## 3. 实际应用与性能验证 - **工程实践**：vLLM实现后单设备可处理408万token缓存；苹果MLX适配同样高效，验证技术普适性。 - **检索性能优势**：在NN搜索中击败乘积量化技术，索引构建时间趋近于零，GloVe数据集召回率最优。 ## 4. 技术局限与市场矛盾 - **硬件涨价持续**：尽管算法突破，GPU/CPU等价格仍上涨（参考相关报道），反映供需关系的复杂性。 - **长期影响待观察**：技术落地速度和厂商适配能力将决定实际对硬件需求的抑制程度。

2026-03-26 19:46

内存股集体大跌，原因竟是谷歌这篇一年前的论文

机器之心

本文来自微信公众号：机器之心，编辑：Panda，作者：关注内存的

昨天，美国内存股迎来一波集体暴跌。据统计，闪迪一度跌6.5%，希捷科技跌超5%，西部数据跌超4%，美光科技跌4%。

而这一轮内存股暴跌的诱因，却只是谷歌发布的一篇新博客。这篇博客介绍了谷歌一年前就已经在arXiv上公布的一项技术：TurboQuant。

论文标题：TurboQuant:Online Vector Quantization with Near-optimal Distortion Rate
论文地址：https://arxiv.org/abs/2504.19874

简单来说，TurboQuant是一种压缩算法，可将LLM KV缓存内存占用减少至少6倍，速度提升高达8倍，且精度零损失！

技术博客：https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

这一事件也让不少投资者和网友吐槽金融市场的非理性表现：

那么，TurboQuant究竟有何等玄妙？为何发布一年之后还能引发如此巨大的轰动和市场震荡？

这还得从KV缓存说起。

KV缓存简介

什么是KV缓存？简单来说，当大语言模型(LLM)生成文本时，它需要记住之前生成过的每一个词语的上下文信息。为了做到这一点，模型会将这些历史信息的键（Key）和值（Value）保存在内存中，这就是所谓的KV缓存。

这就像是模型在脑子里打的「小抄」。随着用户输入的提示词越来越长，或者模型的层数与注意力头数越来越多，这张小抄的体积会呈线性膨胀。

为了让模型不卡顿，硬件厂商和AI公司只能不断往服务器里塞昂贵的高带宽内存（HBM）。

Gemini生成的示意图

也因此，在此之前，金融市场对内存芯片的需求预期极度乐观。

TurboQuant：把大象装进冰箱

大模型要变聪明，向量维度就得往上飙。但传统的向量压缩技术（也就是量化）有一个致命弱点：它们往往需要为每一个小数据块计算并存储全精度的量化常数。

这就像是为了把一件大衣服塞进行李箱，你非得在旁边塞进一本厚厚的「折叠说明书」，一来二去，每个数字反而会多出1到2个bit的额外内存开销，部分抵消了向量量化的初衷。

为了甩掉这个历史包袱，TurboQuant搞出了一套极其精妙的两阶段压缩架构。

第一步：给数据换个「看问题的角度」

第一阶段的核心是搞定均方误差（MSE）的优化。

TurboQuant会先给高维输入向量来一个「随机旋转」。这一招极其巧妙，它直接简化了数据的几何形状。

在底层的PolarQuant机制视角下，这就像是把传统直角坐标系下「向东走3个街区，再向北走4个街区」的繁琐路径，一句话转换成了「以37度角，总共走5个街区」的极坐标表达。

PolarQuant充当了高效的压缩桥梁，将笛卡尔坐标输入转换为紧凑的极坐标「速记符」，以便进行存储和处理。其机制首先将d维向量的坐标成对分组，并将其映射到极坐标系中。随后，系统会将成对的半径收集起来进行递归式的极坐标变换，该过程会持续重复，直到整个数据被提炼为单一的最终半径以及一组描述性的角度。

这样一来，信息被清晰地拆分成了代表核心数据强度的「半径」，以及代表数据方向或含义的「角度」。经过这种旋转，所有坐标在数学上会呈现出一种集中的Beta分布。

在高维空间里，不同坐标之间变得几乎完全独立。因为角度的分布规律已经非常明确且高度集中，模型可以直接把数据映射到一个固定的「圆形」网格上，彻底省去了极其耗费算力的数据归一化步骤。

在这个阶段，TurboQuant投入了绝大部分的压缩算力，对向量的每个部分单独应用标准的高质量量化器，死死锁住原始向量的核心特征，同时把那些累赘的内存开销削减为零。

第二步：1 bit算力带来的「神级校准」

完成了粗线条的极限压缩，新的问题又来了：只追求MSE最优的量化器，在估算大模型最依赖的「内积」时，会不可避免地产生严重偏差。

这时候，TurboQuant亮出了第二件武器：Quantized Johnson-Lindenstrauss变换（也就是QJL）。

TurboQuant拿出仅有的1 bit压缩空间，专门用来处理第一阶段剩下的微小残差。

QJL就像一个高精密的数学误差检查器。它能够缩小复杂的高维数据，同时完美保留数据点之间的基本距离和关系。它把最终生成的向量数字全部简化成了单个符号位（即+1或-1）。

这就相当于给模型提供了一套速度极快且零内存开销的「速记法」。通过将高精度的查询请求与这种低精度、简化版的数据进行巧妙平衡，模型最终得以极其精准地计算出注意力得分。

正是这关键的1 bit，成功构建出了一个无偏的内积量化器，彻底抹平了此前积累的计算偏差。

内存价格能下来吗？

为什么说这项技术足以震动硬件市场？看看它在极限测试中的成绩单就一目了然了。

在处理超长上下文的「大海捞针」任务中，TurboQuant在将KV缓存压缩超过5倍的情况下，依然维持了完美的完美召回率。在普通的生成任务中，即使用3.5 bit的极致压缩比，它也能做到绝对的质量无损。

基于Llama-3.1-8B-Instruct模型，相对于其它压缩方法，TurboQuant在LongBench基准测试中展现出了强大的KV缓存压缩性能（括号内标注了具体位宽）。

也已经有工程师成功了为vLLM实现了TurboQuant并验证了其效果。他惊喜地分享说：「我那USB充电器大小的HP ZGX现在可以在GB10上容纳4,083,072个KV缓存token。这可能是2026年迄今为止最大的开放式推理突破。」

在另一个实现案例中，研究者在苹果MLX中实现了TurboQuant，同样效果卓绝！

除了不掉智，它还跑得飞快。

由于底层采用了高度适配当今AI加速器的设计，在H100 GPU上，使用4 bit版本的TurboQuant计算注意力逻辑的速度，比传统的32 bit无量化版本快了整整8倍。

相较于高度优化的JAX基准，TurboQuant展示了在不同位宽级别下，在KV缓存内计算注意力logits时的大幅性能提升。

使用4位量化时，不同方法在各个维度上的量化时间（以秒为单位）

在向量数据库和搜索引擎非常看重的最近邻（NN）搜索领域，它不仅在召回率上轻松击败了现有的乘积量化（PQ）技术，还将庞大的索引构建时间压缩到了几乎为零。

TurboQuant展现出强劲的检索性能，在GloVe数据集（d=200）上相对于多种最先进的量化基线，实现了最优的1@k召回率。

这意味着，原本必须要买8张高端显卡才能跑起来的超大模型，现在可能只需要两三张卡就能流畅运行。

看起来，如果这项技术能够得到普及应用，AI公司在推理端的硬件成本或将面临下降。这种纯靠底层算法榨干硬件潜力的技术突破，有望打乱市场对内存芯片爆发式增长的预期。

可以说，谷歌仅凭一小撮数学公式，就硬生生给高涨的硬件算力焦虑降了温。

然而，话又说回来，内存、GPU、CPU等等的价格似乎也依然还在继续涨，参阅《继GPU、存储暴涨之后，AI最终攻陷CPU市场》。

参考链接

https://x.com/IntuitMachine/status/2036899927465308617

https://x.com/jukan05/status/2036800675158573294

https://x.com/Prince_Canuma/status/2036611007523512397

https://x.com/vllm_project/status/2036989821156270501

频道: 金融财经

机器之心

这里本来有条个人简介

认证作者

已在虎嗅发表 436 篇文章

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定