谷歌发布的TurboQuant压缩算法通过两阶段技术将LLM的KV缓存内存占用减少6倍、速度提升8倍,引发内存股暴跌,预示硬件需求可能下降。 ## 1. TurboQuant技术原理与突破 - **两阶段压缩架构**:首阶段通过随机旋转和极坐标转换(PolarQuant)简化数据几何形状,节省内存;次阶段用1 bit的QJL变换校准内积偏差,实现零精度损失。 - **关键数据**:KV缓存压缩超5倍仍保持完美召回率,3.5 bit压缩下质量无损,H100 GPU上4 bit版本速度比32 bit快8倍。 ## 2. 对内存硬件市场的冲击 - **需求预期逆转**:技术普及后,AI公司推理硬件成本或降低,原需8张高端显卡的模型可能仅需2-3张,削弱内存芯片增长预期。 - **市场反应**:闪迪跌6.5%,希捷/西部数据/美光跌4%-5%,投资者质疑金融市场对一年前论文的过度反应。 ## 3. 实际应用与性能验证 - **工程实践**:vLLM实现后单设备可处理408万token缓存;苹果MLX适配同样高效,验证技术普适性。 - **检索性能优势**:在NN搜索中击败乘积量化技术,索引构建时间趋近于零,GloVe数据集召回率最优。 ## 4. 技术局限与市场矛盾 - **硬件涨价持续**:尽管算法突破,GPU/CPU等价格仍上涨(参考相关报道),反映供需关系的复杂性。 - **长期影响待观察**:技术落地速度和厂商适配能力将决定实际对硬件需求的抑制程度。
内存股集体大跌,原因竟是谷歌这篇一年前的论文
2026-03-26 19:46

内存股集体大跌,原因竟是谷歌这篇一年前的论文

本文来自微信公众号: 机器之心 ,编辑:Panda,作者:关注内存的


昨天,美国内存股迎来一波集体暴跌。据统计,闪迪一度跌6.5%,希捷科技跌超5%,西部数据跌超4%,美光科技跌4%。



而这一轮内存股暴跌的诱因,却只是谷歌发布的一篇新博客。这篇博客介绍了谷歌一年前就已经在arXiv上公布的一项技术:TurboQuant。



  • 论文标题:TurboQuant:Online Vector Quantization with Near-optimal Distortion Rate


  • 论文地址:https://arxiv.org/abs/2504.19874


简单来说,TurboQuant是一种压缩算法,可将LLM KV缓存内存占用减少至少6倍,速度提升高达8倍,且精度零损失!



技术博客:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/


这一事件也让不少投资者和网友吐槽金融市场的非理性表现:





那么,TurboQuant究竟有何等玄妙?为何发布一年之后还能引发如此巨大的轰动和市场震荡?


这还得从KV缓存说起。


KV缓存简介


什么是KV缓存?简单来说,当大语言模型(LLM)生成文本时,它需要记住之前生成过的每一个词语的上下文信息。为了做到这一点,模型会将这些历史信息的键(Key)和值(Value)保存在内存中,这就是所谓的KV缓存。


这就像是模型在脑子里打的「小抄」。随着用户输入的提示词越来越长,或者模型的层数与注意力头数越来越多,这张小抄的体积会呈线性膨胀。


为了让模型不卡顿,硬件厂商和AI公司只能不断往服务器里塞昂贵的高带宽内存(HBM)。


Gemini生成的示意图


也因此,在此之前,金融市场对内存芯片的需求预期极度乐观。


TurboQuant:把大象装进冰箱


大模型要变聪明,向量维度就得往上飙。但传统的向量压缩技术(也就是量化)有一个致命弱点:它们往往需要为每一个小数据块计算并存储全精度的量化常数。


这就像是为了把一件大衣服塞进行李箱,你非得在旁边塞进一本厚厚的「折叠说明书」,一来二去,每个数字反而会多出1到2个bit的额外内存开销,部分抵消了向量量化的初衷。


为了甩掉这个历史包袱,TurboQuant搞出了一套极其精妙的两阶段压缩架构。


第一步:给数据换个「看问题的角度」


第一阶段的核心是搞定均方误差(MSE)的优化。


TurboQuant会先给高维输入向量来一个「随机旋转」。这一招极其巧妙,它直接简化了数据的几何形状。


在底层的PolarQuant机制视角下,这就像是把传统直角坐标系下「向东走3个街区,再向北走4个街区」的繁琐路径,一句话转换成了「以37度角,总共走5个街区」的极坐标表达。



PolarQuant充当了高效的压缩桥梁,将笛卡尔坐标输入转换为紧凑的极坐标「速记符」,以便进行存储和处理。其机制首先将d维向量的坐标成对分组,并将其映射到极坐标系中。随后,系统会将成对的半径收集起来进行递归式的极坐标变换,该过程会持续重复,直到整个数据被提炼为单一的最终半径以及一组描述性的角度。


这样一来,信息被清晰地拆分成了代表核心数据强度的「半径」,以及代表数据方向或含义的「角度」。经过这种旋转,所有坐标在数学上会呈现出一种集中的Beta分布。


在高维空间里,不同坐标之间变得几乎完全独立。因为角度的分布规律已经非常明确且高度集中,模型可以直接把数据映射到一个固定的「圆形」网格上,彻底省去了极其耗费算力的数据归一化步骤。


在这个阶段,TurboQuant投入了绝大部分的压缩算力,对向量的每个部分单独应用标准的高质量量化器,死死锁住原始向量的核心特征,同时把那些累赘的内存开销削减为零。


第二步:1 bit算力带来的「神级校准」


完成了粗线条的极限压缩,新的问题又来了:只追求MSE最优的量化器,在估算大模型最依赖的「内积」时,会不可避免地产生严重偏差。


这时候,TurboQuant亮出了第二件武器:Quantized Johnson-Lindenstrauss变换(也就是QJL)。


TurboQuant拿出仅有的1 bit压缩空间,专门用来处理第一阶段剩下的微小残差。


QJL就像一个高精密的数学误差检查器。它能够缩小复杂的高维数据,同时完美保留数据点之间的基本距离和关系。它把最终生成的向量数字全部简化成了单个符号位(即+1或-1)。


这就相当于给模型提供了一套速度极快且零内存开销的「速记法」。通过将高精度的查询请求与这种低精度、简化版的数据进行巧妙平衡,模型最终得以极其精准地计算出注意力得分。


正是这关键的1 bit,成功构建出了一个无偏的内积量化器,彻底抹平了此前积累的计算偏差。


内存价格能下来吗?


为什么说这项技术足以震动硬件市场?看看它在极限测试中的成绩单就一目了然了。


在处理超长上下文的「大海捞针」任务中,TurboQuant在将KV缓存压缩超过5倍的情况下,依然维持了完美的完美召回率。在普通的生成任务中,即使用3.5 bit的极致压缩比,它也能做到绝对的质量无损。


基于Llama-3.1-8B-Instruct模型,相对于其它压缩方法,TurboQuant在LongBench基准测试中展现出了强大的KV缓存压缩性能(括号内标注了具体位宽)。


也已经有工程师成功了为vLLM实现了TurboQuant并验证了其效果。他惊喜地分享说:「我那USB充电器大小的HP ZGX现在可以在GB10上容纳4,083,072个KV缓存token。这可能是2026年迄今为止最大的开放式推理突破。」


在另一个实现案例中,研究者在苹果MLX中实现了TurboQuant,同样效果卓绝!



除了不掉智,它还跑得飞快。


由于底层采用了高度适配当今AI加速器的设计,在H100 GPU上,使用4 bit版本的TurboQuant计算注意力逻辑的速度,比传统的32 bit无量化版本快了整整8倍。


相较于高度优化的JAX基准,TurboQuant展示了在不同位宽级别下,在KV缓存内计算注意力logits时的大幅性能提升。


使用4位量化时,不同方法在各个维度上的量化时间(以秒为单位)


在向量数据库和搜索引擎非常看重的最近邻(NN)搜索领域,它不仅在召回率上轻松击败了现有的乘积量化(PQ)技术,还将庞大的索引构建时间压缩到了几乎为零。


TurboQuant展现出强劲的检索性能,在GloVe数据集(d=200)上相对于多种最先进的量化基线,实现了最优的1@k召回率。


这意味着,原本必须要买8张高端显卡才能跑起来的超大模型,现在可能只需要两三张卡就能流畅运行。


看起来,如果这项技术能够得到普及应用,AI公司在推理端的硬件成本或将面临下降。这种纯靠底层算法榨干硬件潜力的技术突破,有望打乱市场对内存芯片爆发式增长的预期。


可以说,谷歌仅凭一小撮数学公式,就硬生生给高涨的硬件算力焦虑降了温。


然而,话又说回来,内存、GPU、CPU等等的价格似乎也依然还在继续涨,参阅《继GPU、存储暴涨之后,AI最终攻陷CPU市场》。


参考链接


https://x.com/IntuitMachine/status/2036899927465308617


https://x.com/jukan05/status/2036800675158573294


https://x.com/Prince_Canuma/status/2036611007523512397


https://x.com/vllm_project/status/2036989821156270501

频道: 金融财经
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定