谷歌一篇论文引爆存储芯片崩盘!AI内存需求暴降6倍,推理狂飙8倍

  新智元报道

  编辑:好困桃子

  谷歌一篇论文,直接让存储巨头们「集体失眠」,一夜市值蒸发几百亿!最新博客官宣 TurboQuant 算法,直接将缓存压到3-bit,内存占用只有1/6。

  一篇论文搅动万亿市场,存储芯片的天塌了...

  谁也未曾料到,本周三美股开盘,存储芯片板块遭遇「黑色时刻」,巨头股价全线飘绿——

  截至收盘,美光科技下跌4%,西部数据下跌 4.4%,希捷下跌 5.6%,闪迪更是重挫 6.5%。

  引发这场抛售地震的导火索,正是谷歌发布的 TurboQuant 压缩算法

  众所周知,大模型跑起来时,KV 缓存(KV cache)简直是内存界的「吞金兽」。

  为了不重复计算之前的 Token,LLM 维持一份「运行记忆」,随着对话越来越长,这份记忆会像滚雪球一样迅速膨胀。

  谷歌的 TurboQuant,给出了一套极其「暴力」的瘦身方案

  首先,把 KV 缓存里的高维向量做一次「旋转」,再换一套极坐标系来描述,内存开销直接归0。

  然后,用仅仅1-bit 额外空间,放一个数学「校正器」进去,把压缩带来的系统性偏差精确抹平。

  TurboQuant 论文将于下月举办的 ICLR 2026 上正式发表

  结果非常顶:不用任何重训,TurboQuant 把缓存压缩至丧心病狂的3-bit

  这么一来,KV 缓存开销骤降 6 倍,关键是,推理表现几乎零损耗。

  在 H100 上,相较于 32-bit 基线,4-bit 的计算注意力速度飙升了 8 倍。不仅省空间,还跑得更快了。

  一时间,全网陷入疯狂。照这样说,16GB Mac mini 又能用来跑大模型了。

  这一幕,现实版「魔笛手」(Pied Piper)真的降临了!

  内存占用暴降 6 倍,存储巨头集体重挫

  对于芯片存储巨头来说,这无异于一场「底层逻辑大地震」。

  美光、西数等巨头的估值基石,向来建立在「AI 服务器单机容量红利」之上。

  一旦单次推理任务的比特(Bit)需求发生结构性骤降,高性能存储的增长动能将直接面临「缩水」危机。

  直白讲,谷歌 TurboQuant 出世,直接冲击了芯片存储巨头们,备受追捧的 AI 硬件逻辑。

  KV 缓存暴降 6 倍,速度提升 8 倍,意味着每台服务器所需的高端内存芯片可能变少。

  Cloudflare 首席执行官 Matthew Prince 甚至将其形容为「谷歌的 DeepSeek 时刻」!

  KV 缓存,大模型疯狂吞金

  要理解 TurboQuant 的分量,先得搞清楚它瞄准的靶心——KV 缓存到底有多吃内存。

  大模型生成每一个 Token 时,都要「回看」之前所有 Token 的信息。

  为了避免重复计算,模型把每一层注意力机制产出的 Key 和 Value 向量全部缓存起来,形成一张高速「速查表」。

  问题在于,这张表随对话长度线性膨胀。

  当上下文从 4K 扩展到 128K 甚至百万级别,KV 缓存吞掉的显存往往反超模型参数本身,成为推理阶段最大的内存瓶颈。

  传统的解法是向量量化,也就是把 16-bit 浮点数压缩成4-bit 整数。

  但几乎所有传统方法都需要为每一小块数据额外存储一组全精度的量化常数,每个数字多吃 1 到 2 个 bit。

  压到4-bit,实际可能是 5 到6-bit,压缩的意义被自己的「手续费」蚕食了一大截。

  而 TurboQuant 的野心,正是彻底消灭这笔附加费。

  论文地址:https://arxiv.org/pdf/2504.19874

  两步「绝杀」

  极坐标变换 + 1-bit 误差校验

  TurboQuant 的核心,是一个精巧的两阶段流程。

  第一阶段:PolarQuant 换一个坐标系看世界

  传统量化在笛卡尔坐标系(X、Y、Z轴)下操作,每个轴的取值范围不固定,必须额外存储归一化参数来「对齐」。

  换句话说,每一小块数据都要自带一张「比例尺」,而这张比例尺本身就很占空间。

  PolarQuant 的第一步,是对数据向量做一次随机旋转。

  这一步看似随意,背后的数学意义却很深:在高维空间里,随机旋转会让向量的每个坐标分量收敛到一种高度集中的 Beta 分布,而且各分量之间近似独立同分布。

  不管原始数据长什么样,转完之后,统统变成「一个模子刻出来的」。

  PolarQuant 就像一座高效的压缩桥梁,能把笛卡尔坐标输入转换成紧凑的极坐标「速记」形式,方便后续的存储和处理

  这让复杂的高维量化问题,降格为一组简单的一维标量量化问题。

  谷歌只需要提前算好不同位宽下的最优码本,推理时直接查表即可,不需要为每一组数据单独计算任何东西。

  然后,PolarQuant 把旋转后的向量「笛卡尔坐标系」转换成「极坐标系」。

  举个栗子,传统方法描述一个位置:向东走 3 个街区,再向北走 4 个街区。PolarQuant 则说:朝 37 度方向直接走 5 个街区。

  转换之后,数据被拆成两组信息:一个半径(代表信号强度),一组角度(代表信号方向)。

  接下来才是真正精妙的一步,即「递归配对」。

  PolarQuant 把坐标两两分组进行极坐标变换,得到一组半径和一组角度;再把这些半径两两配对,做第二轮极坐标变换;如此递归往复,最终整个高维向量被浓缩为一个最终半径和一系列描述性角度。

  因为角度的分布模式在数学上是已知且高度集中的,整个过程不需要存储任何归一化常数。

  开销,归零。

  这一步消耗了绝大部分的压缩预算(分配b-1 个 bit),专注于把均方误差(MSE)压到最低,精准捕捉原始向量的核心信息。

  第二阶段:QJL 用 1 - bit 消灭残余误差

  再精准的压缩,也会留下误差。

  而且这里有个隐蔽的陷阱:一个在 MSE 意义上最优的1-bit 量化器,在高维空间中会引入一个2/π的乘性偏差。

  也就是说,你把数据压得很小、失真也很低,但用它算内积(注意力分数的核心操作)时,结果是系统性偏斜的。

  TurboQuant 的第二步,专门来「杀」这个偏差。

  它将 Johnson-Lindenstrauss 变换应用到第一阶段的残余误差上,把每个误差值压缩为一个符号位:+1 或-1。

  然后配合一个特殊的估计器——用高精度的 Query 向量和低精度的压缩 Key 做联合计算。

  这套组合拳,在数学上被证明是「无偏」的:压缩前后的内积期望值严格相等。

  只消耗最后 1 个 bit,就把第一阶段残留的系统性偏差彻底抹平。

  两步合璧的效果

  TurboQuant 在仅仅3-bit 的总预算下,实现了接近无损的压缩效果,全程零额外开销。

  论文给出了严格的理论证明:TurboQuant 的 MSE 失真率,在所有位宽下都控制在理论绝对下限的约 2.7 倍以内。在1-bit 极端压缩的情况下,更是只有最优值的约 1.45 倍。

  换句话说,它几乎贴着信息论的「物理极限」在运行。

  整套算法是「数据无感知」(data-oblivious)的——不需要任何校准数据,不依赖任何预训练,对数据集零假设。

  同时,算法内部全程使用向量化运算,避免了传统方法中缓慢的二分查找,对 GPU 加速器极其友好。

  拿来即用,即插即飞。

  跑分全面碾压,大海捞针完美通关

  光说原理不够,得看实战。

  谷歌在 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 和L-Eval 五大长上下文基准测试上,对 TurboQuant 进行了严格验证,测试模型覆盖 Gemma、Mistral 和 Llama-3.1-8B-Instruct。

  结果相当硬核。

  在 LongBench 的问答、代码生成、文本摘要等综合任务中,3-bit 配置下的 TurboQuant,性能全面优于 KIVI 等基线方法,甚至逼近全精度模型的表现。

  最残酷的考验来自「大海捞针」——在 10 万 Token 的文本海洋里,精准捞出一句特定信息。

  在 4 倍压缩比下,TurboQuant 的检索精度一路保持到 10.4 万 Token,与全精度模型完全一致。6 倍压缩之后,模型该记住的,一个字都没丢。

  在 H100 GPU 上,4-bit TurboQuant 计算注意力 logits 的速度,相比 32-bit 未量化基线提升了 8 倍。

  需要说明的是,这个 8 倍是注意力计算环节的加速比,并非端到端推理的整体提速,但注意力计算恰恰是长上下文推理中最吃资源的那一环。

  谷歌特别强调,TurboQuant 引入的运行时开销「几乎可以忽略不计」。

  这也好理解——算法本身不涉及任何数据集相关的查表或搜索操作,纯粹是矩阵运算,天然适合 GPU 并行。

  在高维向量搜索方面,TurboQuant 也没有放过对手。

  在 GloVe 数据集(200 维)上,它击败了 PQ 和 RabbiQ 两大前沿方法,拿下最优1@k召回率。而那些对手还依赖庞大的密码本和针对性调优,TurboQuant 全程「裸奔」通杀。

  这个结果的含金量在于:向量搜索是谷歌搜索、推荐系统、广告系统等核心产品的底层引擎。

  TurboQuant 在这个赛道上的优势,意味着它不只是一个学术玩具,而是有明确的工程落地路径。

  博客官宣这天,独立开发者在 Reddit 上晒出了复现成果:

  基于 PyTorch 和自定义 Triton kernel,在 RTX 4090 上用2-bit 精度跑 Gemma 3 4B,输出与未压缩版本逐字符一致。

  论文写的「零损耗」,社区用代码投了票。

  另一位开发者 Prince Canuma 实测后惊叹道:「面对 8.5K 到 64.2K 不等的大跨度上下文,TurboQuant 让模型对显存实现极致压缩」。

  2. 5-bit 量化让 KV 缓存缩小了 4.9 倍;3.5-bit 量化也实现了 3.8 倍的缩小。

  谷歌一张纸,存储芯片天塌了?

  存储芯片的天,真的塌了吗?大概率没有。

  科技行业有一条反复被验证的铁律——杰文斯悖论:资源使用效率越高,总消耗量反而越大。

  KV 缓存压缩 6 倍,最可能的结果不是少买内存,而是同样的显存跑更长的上下文、更多的并发、更大的模型。

  虽然压缩算法还从未从根本上改变过采购量,但有两件事确实在发生改变。

  第一,推理成本的地板价被改写了。

  TurboQuant 的三篇论文将在 ICLR 2026 和 AISTATS 2026 上公开发表,核心思想向全行业敞开。

  当3-bit 能做到过去 16-bit 的事情,受益的是每一个做推理服务的公司,感到压力的是那些指望「量价齐升」永远持续的存储厂商。

  第二,从论文到落地的路正在缩短。

  TurboQuant 目前仅在 8B 参数级别的开源模型上得到验证,70B 以上的模型、MoE 架构、百万级上下文窗口上的表现尚未证实。

  谷歌也没有宣布它已部署到 Gemini 或任何生产系统中。

  这次谷歌博客一发出,不到 24 小时,就有独立开发者从论文出发写出了完整实现并跑通验证。

  在算力军备竞赛里,最锋利的武器未必是更大的芯片,也可能是更聪明的数学。

  技术不关心股票代码,只关心比特的边界在哪里。

  参考资料:

  https://arstechnica.com/ai/2026/03/google-says-new-turboquant-compression-can-lower-ai-memory-usage-without-sacrificing-quality/

  https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

  https://x.com/StockSavvyShay/status/2036799431144804648?s=20

  https://x.com/rohanpaul_ai/status/2036883872680640520?s=20

  https://techcrunch.com/2026/03/25/google-turboquant-ai-memory-compression-silicon-valley-pied-piper/?utm_medium=organic_social&utm_source=TWITTER