
新智元报道
编辑:元宇
一张普通的 24G 家用显卡,竟然能让一个 32B 的超大模型一口气读完 6 份长文档、自动写出周报?英伟达、MIT、浙大华人研究者联合出新招,让内存消耗直接暴降 10 倍,不降智也不爆显存,彻底击穿硬件天花板。
一张 RTX 4090,24GB 显存,跑一个 32B 参数的大模型做 agent 任务。
不做任何 KV 压缩,显存直接爆掉,连模型都跑不起来。
换上 TriAttention,模型稳稳跑起来,顺利读完 6 份文档,自动生成了一份完整周报。
这不是社区大神的魔改,而是一篇来自 MIT、英伟达、浙大的联合论文。

https://arxiv.org/pdf/2604.04921
核心思路是在 pre-RoPE 空间里,用Q/K的三角集中度来估计每个 KV token 到底有多重要,然后只保留真正重要的那些。
打个比方来说,别的方法压 KV cache 像是把所有行李都塞进压缩袋,不管里面是羽绒服还是砖头一律压扁。
TriAttention 是先翻一遍行李箱,把砖头扔掉,只给羽绒服打包。
TriAttention demo 演示,展示单张 RTX 4090 上 Qwen3-32B 完成 OpenClaw agent 任务的完整过程
作者之一 Yukang Chen 在X上发布了这组对比,左边不压缩,显存直接报错;右边开了 TriAttention,agent 一路读完 6 份文档,周报完整输出。

2. 5 倍吞吐
10. 7 倍内存缩减
效果怎么样?数字说话。
在 AIME25 数学推理任务上,TriAttention 在匹配 Full Attention 准确率(40.8%)的前提下,吞吐量提升了 2.5 倍。
再看内存:KV cache 内存缩减 10.7 倍。

在 AIME25(Qwen3-8B)上的性能权衡。(A) 在相同准确率(40.8%)下,TriAttention 的吞吐量比 Full Attention 高 2.5 倍。(B) TriAttention 在保持与 Full Attention 相同准确率的同时,将 KV 缓存内存减少了 10.7 倍。
注意,这里说的是 KV cache memory,不是整机显存,也不是模型参数占用的总内存。
但就算只是 KV cache 这一项,对长序列推理场景来说,KV cache 往往就是压垮显存的最后一根稻草。
砍掉这一项,就是能跑和不能跑的分界线。
主实验是在 Qwen3-8B 上做的,覆盖 AIME24、AIME25、MATH500 等任务。
在 32K token 的生成长度条件下,TriAttention 几乎没有牺牲精度,但把推理效率拉到了一个新台阶。
单张 4090 跑通 32B 大模型
这篇论文附录中提到了一个真实部署案例。
场景是 OpenClaw,一个多轮 agent 工作流。任务是读 6 份 markdown 文档,生成一份周报。
模型是 Qwen3-32B,用了 AWQ INT4 量化,跑在一张 RTX 4090(24GB)上。
不压缩 KV cache 直接跑这个任务?显存当场爆掉。
长系统提示加上多轮文档读取,KV cache 膨胀到显存根本兜不住。
TriAttention 接管之后,agent 顺利读完所有文档,生成了完整报告。
模型用的是 Qwen3-32B AWQ INT4 量化版,不是原始 FP16 满血版;跑的是 OpenClaw agent 工作流,不是通用长文本 benchmark。
但它刚好证明了「一个完整的、有实际生产价值的 agent 任务,可以在消费级硬件上跑通」。
vLLM 插件已就位
MLX 实验性起步
TriAttention 不只停在论文里。
作者已经在 GitHub 仓库中提供了 vLLM 集成,README 明确写到 TriAttention 包含一个 vLLM 插件,并给出了 OpenAI 兼容 API 的 server mode、Python API 以及 OpenClaw 接入说明。
相比论文中的实验结果,这属于仓库层面的工程化扩展。
这意味着,你不需要改模型架构,不需要重新训练,只需要挂上这个插件,就能在现有的 vLLM 推理管线上获得 KV 压缩收益。
在 Apple Silicon 方向上,官方仓库里单独放了一份 docs/mlx.md,覆盖 M1 到 M4 全系芯片,基于 MLX 框架和 mlx-lm 运行,附带示例代码和硬件 benchmark。

TriAttention 官方仓库已提供 MLX 实验性支持文档,覆盖 M1-M4 芯片 https://github.com/WeianMao/triattention/blob/main/docs/mlx.md
不过,官方文档标题中也标注了这还是实验性支持,这说明他们已经在早期试水 MLX 了,但离成熟的 Mac 本地部署还有距离。
KV 压缩赛道的两条路线
KV cache 压缩赛道存在两条路线。
一条是量化派。
Google Research 在 3 月 24 日发布了 TurboQuant,官方博客中的定位是「在零精度损失下实现极致压缩」的方案,主打把 KV cache 和向量搜索的 bit 数压到极低。

Google Research 官方博客中 LongBench 基准测试图,TurboQuant 在 LongBench 基准测试中,相较于多种压缩方法,在 Llama-3.1-8B-Instruct 模型上展现出稳健的 KV 缓存压缩性能
社区已经有人在 Apple Silicon 上用 TurboQuant 跑通了 Gemma 4 31B。
另一条是选择性保留派。
TriAttention 就是这条路线的新代表,不压 bit,而是直接判断哪些 token 的 KV 值得留、哪些可以扔。
两条路线的终点其实一样:让大模型跑在消费级硬件上,显存不炸,精度不掉。
但方法论完全不同。
量化是把每个行李都压扁,选择性保留是直接减少行李数量。
理论上,两者甚至可以叠加使用。
目前还没有严格的同模型、同硬件、同任务的 head-to-head 对比,所以「谁碾压谁」还说不了。
但可以确定的是,这两条路线正在加速向消费级部署推进。
一年前,「本地跑大模型」还是极客圈的行为艺术,跑个 7B 都要折腾半天。
现在,32B 模型在单张消费级卡上完成 agent 任务,Apple Silicon 上的 MLX 生态一周一个新仓库,vLLM 插件让 KV 压缩变成「挂上就用」的一键方案。
KV cache 压缩这条赛道,正在从论文里的消融实验,变成每个开发者都能触碰到的工程现实。
作者简介
Weian Mao

Weian Mao
Weian Mao 现为 MIT CSAIL 博士后研究员,博士毕业于阿德莱德大学 AIML,师从沈春华教授。其当前研究聚焦大语言模型,尤其关注推理效率与长上下文推理中的 KV cache 压缩;此前也从事过计算机视觉与蛋白质设计等方向研究。
Xi Lin

Xi Lin
Xi Lin 是浙江大学计算机科学与技术专业高年级本科生,研究兴趣集中在高效 AI 的算法—系统协同设计,尤其关注面向硬件友好的稀疏与量化模块设计,以及高效推理策略。其工作与高性能计算、机器学习系统等方向密切相关。
Wei Huang

Wei Huang
Wei Huang 现为香港大学博士生,研究聚焦 Efficient AI 与大型视觉/语言模型。
目前,他在 NVIDIA Research 实习,与 Yukang Chen 等研究者合作,并在 Song Han 指导下开展相关研究,参与了 QeRL、LongLive 等工作。
参考资料:
https://arxiv.org/abs/2604.04921
https://x.com/yukangchen_/status/2041366586423165152
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
