Google的TurboQuant算法通过AI压缩技术将显存占用减少6倍,引发存储芯片股暴跌,可能重塑AI推理成本结构,但大规模应用仍需验证。 ## 1. TurboQuant的技术突破 - Google的TurboQuant算法通过两阶段压缩(PolarQuant极坐标转换+QJL误差处理)实现KV Cache显存占用减少6倍,且无需重新训练模型。 - 在Llama-3.1-8B和Mistral-7B测试中实现100%召回率,H100 GPU上计算速度比未压缩方案快8倍。 ## 2. 市场与行业影响 - 技术发布后美光科技、闪迪等存储芯片股单日跌幅超2%,因算法可能削弱硬件需求增长预期。 - Cloudflare CEO称此为"DeepSeek时刻",类比去年低成本高性能AI模型对行业的冲击。 ## 3. 潜在商业价值 - 同规格H100推理成本可降50%,端侧部署门槛降低(如Mac Mini可运行原需32位精度的大模型)。 - Apple Silicon实测显示Qwen3.5-35B模型在2.5位量化下压缩5倍且零准确率损失。 ## 4. 技术局限与争议 - 仅解决推理阶段显存问题,训练阶段资源需求仍巨大;实验室到生产需跨工程适配等关卡。 - 有批评指出论文基础研究去年已公开,市场反应过度,如同"因混动引擎看空石油"的逻辑偏差。 ## 5. 未来展望 - Google计划在ICLR 2026/AISTATS 2026展示技术,但杰文斯悖论可能导致效率提升反刺激总需求增长。 - 不同于《硅谷》剧情的颠覆性,现实目标聚焦提升AI对话长度与稳定性。
一篇论文引发存储芯片股暴跌,Google 的“DeepSeek 时刻”来了?
2026-03-26 12:29

一篇论文引发存储芯片股暴跌,Google 的“DeepSeek 时刻”来了?

本文来自微信公众号: APPSO ,作者:发现明日产品的,原文标题:《一篇论文引发存储芯片股暴跌,Google 的「DeepSeek 时刻」来了?》


看过HBO神剧《硅谷》(Silicon Valley)的朋友,想必都对那个名为Pied Piper(魔笛手)的虚构公司念念不忘。


在剧中,男主角Richard Hendricks发明了一种「中间压缩算法」,能以极高的压缩率无损处理文件,甚至因此改写了整个互联网的规则。


当时我们都以为这只是编剧的脑洞。直到Google Research正式发布了名为TurboQuant的AI压缩算法。



这原本是一条枯燥的技术新闻,却在社交网络上引发了病毒式传播,不到24小时,就收获了1280万次浏览。原因无他,这项技术的设定简直就是Pied Piper的翻版:


在不损失模型性能的前提下,将AI的「工作记忆」压缩至少6倍。


市场的反应也极为真实,美股存储芯片板块盘中遭遇抛售,美光科技、闪迪等头部企业股价齐齐收跌。



这不禁让人好奇,一项纯软件层面的算法创新,为什么会让卖硬件的先慌了神,而Google到底向当前的AI牌桌上扔了一张怎样的底牌?


困在「记忆黑洞」里的大模型


抛开网络热梗,TurboQuant的出现其实不仅是为了好玩,更是为了解决一个让整个AI行业头疼已久的真实瓶颈。


众所周知,现在的AI模型越来越大,对显存的胃口也像无底洞一样。尤其是在推理阶段(也就是你和AI聊天的时候),AI需要记住上下文信息,这部分数据被称为KV Cache(键值缓存)。



每处理一个词,模型都要把它转成一个高维向量存进GPU显存。对话越长,这份「数字备忘录」膨胀越快,很快就把GPU显存塞满。这就是为什么你的AI助手聊久了会「变笨」或者直接报错,脑容量不够了。


更棘手的是,传统的压缩方法一直面临一个两难困境:压缩数据时,需要额外存储「量化常数」来告诉模型怎么解压。这些元数据听起来很小,加起来却能把压缩带来的收益全部抵消掉。


Google的TurboQuant的诞生正是基于此。


研究人员设计了一套两阶段的数学解法。第一阶段叫PolarQuant,把数据向量从传统的直角坐标系转换成极坐标系,拆分成「半径」(表示大小)和「角度」(表示方向)。


这个几何变换的妙处在于:转换后角度的分布变得高度可预测,模型不再需要为每个数据块单独存储昂贵的归一化常数,直接映射到固定的圆形网格上就行了,开销为零。



第二阶段叫QJL(Quantized Johnson-Lindenstrauss变换),充当数学层面的纠错器。它把压缩后残留的误差投影到低维空间,再把每个误差值压缩成一个符号位(+1或-1)。


这个设计保证了AI在计算「注意力分数」时,压缩版本的结果与高精度原版在统计意义上完全一致。所谓注意力分数,就是模型判断上下文里哪些词最重要的关键步骤。


如果说以前AI记笔记是「逐字逐句抄写」,那么TurboQuant就像发明了一套「极简速记符号」:该记的一个不漏,占的空间却少了六倍。


这套方法还有一个对企业来说格外友好的特性:无需重新训练模型。你现有的开源模型,或者自己微调过的模型,直接套上TurboQuant就能跑,不用额外的数据集,也不用重新跑一遍训练流程。


光说不练假把式,在「大海捞针」基准测试里,让AI从10万个词里找出一句藏好的话,TurboQuant在Llama-3.1-8B和Mistral-7B上跑出了满分召回率,同时把KV Cache的显存占用压缩了至少6倍。



在LongBench综合评测套件(涵盖问答、代码生成、长文摘要)上,TurboQuant全面追平甚至超过了此前的最强基线方法KIVI。


最硬核的数字来自英伟达H100 GPU的实测:4位精度的TurboQuant在计算注意力逻辑上的速度,比未压缩的32位方案快了整整8倍。



Google的「DeepSeek时刻」?


论文发布后的24小时内,社区已经开始动手验证。


Apple Silicon MLX框架的知名开发者@Prince_Canuma把算法移植到了Apple Silicon的MLX框架,测试Qwen3.5-35B模型,上下文长度从8500到64000 token全覆盖,每个量化等级都跑出了100%的精确匹配。


他还发现,2.5位的TurboQuant能把KV Cache压缩近5倍,准确率零损失。



对于TurboQuant的发布,Cloudflare CEO Matthew Prince甚至将其称为Google的「DeepSeek时刻」。



把时间拨回一年前,DeepSeek以极低的成本训练出了性能惊人的模型,彻底打破了硅谷大厂对高成本才能训练出高性能AI的迷信。那次冲击也让整个行业意识到:光有大模型不够,还得跑得起、跑得快。


TurboQuant也是这种背景下的产物。如果这项技术能从实验室走向大规模应用,它将带来肉眼可见的商业价值。


同样一张H100,推理成本理论上可以直接打折超过50%;端侧部署的门槛也会大幅降低,以前需要32位精度才能跑的大模型,放在Mac Mini或者本地服务器上也能运行,还不会有质量损耗。


市场的反应,已经很说明问题了。TurboQuant发布当天,美股存储芯片板块盘中遭遇明显抛售。闪迪、美光科技等头部企业股价显著收跌,存储芯片与硬件供应链相关指数单日跌幅超过2%。


究其原因,如果AI巨头能用一套纯软件算法把显存需求砍掉六分之五,那些押注AI会持续疯狂消耗高带宽显存的多头,就得重新盘算自己的仓位了。


而这种防御性反应背后,也表明,过去两年支撑存储股估值的核心逻辑之一,是AI对显存的需求只会越来越大。TurboQuant第一次在技术层面正式动摇了这个假设。


当然,虽然听起来很美好,还是要泼一盆冷水。


一方面,历史上每次效率提升,往往反而带动了总需求增长,经济学里叫「杰文斯悖论」。AI跑得更便宜,可能意味着更多人更频繁地用它,最终消耗的算力反而更多。所以这场「显存危机」到底会不会因此化解,还真不好说。


另一方面,TurboQuant目前仍处于实验室阶段,根据最新消息,Google计划在下个月的ICLR 2026大会上正式展示这项技术,届时还将同步亮相另一场顶会AISTATS 2026。


但从论文到大规模生产部署,中间隔着工程适配、不同架构的兼容性测试、真实场景的性能验证,每一关都不轻松。



论文地址:https://arxiv.org/abs/2504.19874


有网友直接开炮,这篇论文的底层研究其实早在去年四月就已公开,根本谈不上横空出世,眼下的舆论热潮,多少有点追着旧闻起哄的意思。


在他看来,如果存储股因为一篇算法论文而大跌,恰恰暴露了市场里有多少人根本没搞清楚这件事的边界,并把这波反应比作「丰田出了新混动引擎,石油就该崩盘」。



更重要的是,TurboQuant解决的只是推理(Inference)阶段的显存瓶颈,训练阶段的显存消耗依然是另一座大山。想从头训练一个主流量级的大模型,需要的算力资源依然是天文数字。


在《硅谷》里,Pied Piper的压缩算法最终改变了整个互联网。而在现实中,TurboQuant的野心没那么大,目标只是让AI在有限的物理空间里记得更多、算得更快、跑得更便宜。


现实终究不是好莱坞剧本,不必彻底改变互联网,能和AI聊得更长、不再半途报错,已经是很多人想要的了。


附上TurboQuant官方技术博客:


https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定