谷歌发布KV缓存压缩技术,存储需求预期遭冲击,美股存储板块集体下挫

  美股存储芯片板块周三遭遇重挫。闪迪一度跌 6.5%,美光科技跌4%,西部数据跌超4%,希捷科技跌超5%。

  谷歌发布的新型 AI 内存压缩技术 TurboQuant,引发市场对存储需求前景的担忧。据称,该技术可在不损失准确性的前提下,将大语言模型的缓存内存占用至少减少 6 倍,并实现最高 8 倍的加速,旨在解决 AI 推理与向量搜索中的内存瓶颈问题。

  谷歌 TurboQuant 冲击存储需求

  谷歌发布的 TurboQuant 是一种专为大型语言模型和向量搜索引擎设计的内存压缩技术,核心目标是解决 AI 系统中键值缓存(Key-Value Cache)的存储瓶颈。

  根据谷歌公告,TurboQuant 可在无需模型训练或微调的前提下,将键值缓存压缩至 3 比特,在 Gemma、Mistral 等开源模型上实测达到键值内存 6 倍缩减效果。在英伟达 H100 GPU 加速器上,该算法较未量化键值方案性能提升最高达 8 倍。

  该技术通过两步实现压缩:首先采用 PolarQuant 方法对数据向量进行旋转以实现高质量压缩,继而利用量化 Johnson-Lindenstrauss 算法消除残差误差。谷歌指出,传统向量量化方法每个数字会产生 1 至 2 比特的额外内存开销,部分抵消了压缩收益,而 TurboQuant 对此有所改善。

  TurboQuant 将于 ICLR 2026 发表,PolarQuant 则计划在 AISTATS 2026 上亮相。谷歌已在 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 及L-Eval 等多项基准测试中完成验证,并指出该技术同样适用于大规模搜索引擎的向量检索场景。

  杰文斯悖论再现?TurboQuant 或激活更多 AI 应用场景

  摩根士丹利指出,谷歌 TurboQuant 技术仅作用于推理阶段的键值缓存,不影响模型权重所占用的高带宽内存(HBM),也与训练任务无关。因此,这并非存储总需求或硬件总量减少 6 倍,而是通过效率提升增加单 GPU 吞吐量——相同硬件可支持 4 至 8 倍更长的上下文,或在不触发内存溢出的前提下显著提升批处理规模。

  尽管如此,存储板块今年以来累计涨幅显著,估值本已承压,任何可能削减硬件需求的技术进展都足以触发市场的防御性反应。摩根士丹利亦提示,由于该压缩技术可直接集成进平台基础设施,对软件层面可能形成边际利空。

  在分析中,摩根士丹利援引杰文斯悖论,认为效率提升反而可能推升整体需求。其逻辑在于:TurboQuant 通过压缩数据体积与传输量,大幅降低单次查询的服务成本,使 AI 部署更具盈利性。这意味着原本依赖云端集群的模型可迁移至本地硬件运行,有效降低 AI 规模化部署的门槛,从而激活更多应用场景,带动现有基础设施利用率提升。

  摩根士丹利将 TurboQuant 称为“重塑 AI 部署成本曲线的突破”,并将其与 DeepSeek 的影响相提并论——对云服务商与模型平台构成积极信号,在长上下文推理与检索密集型应用中带来可观的投资回报价值,而对算力与内存硬件的长期影响则判断为“中性偏正面”。