华为曝光两大黑科技!打破推理延迟魔咒,大模型从此「秒回」

  新智元报道

  编辑:编辑部 XYH

  刚刚,昇腾两大技术创新,突破速度瓶颈重塑 AI 推理。FusionSpec 创新的框架设计配合昇腾强大的计算能力,将投机推理框架耗时降至毫秒级,打破延迟魔咒。OptiQuant 支持灵活量化,让推理性价比更高。

  「前 DeepSeek」时代,人们普遍认为「有卡才能推理,没卡寸步难行」。

  而 DeepSeek 却凭借一系列软件层面的架构创新,把这一硬性门槛直接抬走,同时开创了中国人自己的 AI 大航海时代。

  不过,虽然诸如 V3 和 R1 等超大规模 MoE 性能卓越,但在部署时却存在着非常大的挑战——推理的速度和延迟

  心理学和行业实验一致表明,LLM 吐出第一个 token 所用的时间(TTFT),以及每秒生成的速度直接决定了用户的「等候感」。超过 100 毫秒即可感知,超过 2 秒即可打断思考。

  对于 AI 应用来说,这里有一个简单的公式可以说明:更快速度+更低延迟=更高满意度+更高转化率。

  为了解决这一核心问题,华为通过两个全新的方法和思路,对 MoE 模型进行了专门的推理优化,让中国模型在中国的服务器上的推理速度来到了全新的高度!

  • FusionSpec打破了大模型推理「延迟魔咒」,依托于昇腾「超高」计算带宽比的特点,创新性地重塑了主模型和投机模型的流程,结合轻量级步间准备,将投机推理框架耗时做到了 1ms。

  • OptiQuant不仅支持主流量化算法,同时具备灵活的自定义组合能力,涵盖了业内主流评测数据集,为大模型推理提供了更强性价比。

  华为挑战 MoE 推理的「两把刷子」

  早期 LLM 的推理通常使用自回归解码方式,即「每次只能预测下一个 token」。

  且需将历史输出作为输入进行下一步解码,导致推理过程串行、效率低下、计算密集度低。

  如何解决这个问题?投机推理技术应运而生。

  投机推理(Speculative Inference),也被称为推测性解码,其核心思想是利用计算代价远低于大模型的小模型(也称为投机模型),先行对后续可能的输出进行猜测,然后由大模型对这些猜测结果进行验证,从而实现并行化推理,提升整体推理速度。

  这个道理其实也简单,就像写作文的时候,你先在草稿上「预测」几个可能句子(投机模型猜测),再挑出合适的句子写到正式作文里(大模型或者叫主模型验证)。

  如果草稿上预测的都不对,那就把作文里的擦掉重写就好了(回退修正)。但要是预测对了,写作文的速度(大模型的输出速度)就能更快——毕竟草稿纸上的修改成本远低于正式作文。

  这种「先试错再优化」的思路,让大模型能更快、更准的给出答案(也就是推理速度又快又好)。

  然而,是想要完美将投机模型和主模型相结合,依然面临很大的困难。

  1.  推测准确性与草稿生成效率的权衡

  小模型的主要任务是快速生成可能的输出,但这往往与生成结果的准确性相矛盾。如何在两者之间找到最佳平衡点,是投机推理技术面临的一大挑战。

  2.  批处理推理场景的适配

  在实际应用中,批处理推理可以提高系统的整体吞吐量。投机推理本质上来说是用空闲的算力换取更高的吞吐,需要处理好投机模型和投机框架引入的耗时,不然无法发挥投机推理在批处理场景下的加速潜力。

  另一方面,仅有投机推理技术也不够,推理性能提升还需与模型压缩、量化、增量式解码等有效集成。

  超大规模 MoE 动辄百亿、千亿参数量,对显存带宽、计算能力和互联网带宽需求,提出了极高要求。尤其长序列推理中的 KV cache,更是堪称显存「无底洞」。

  在此背景下,量化技术就成了缓解资源约束、优化部署效率的「救命稻草」——在大幅降低资源占用的同时,还能尽量保留模型精度。

  以 INT8 量化为例:

  • 权重量化可以将模型参数的显存需求降低 50%,配合激活值量化,利用 Cube-Core 的 INT8 算力加速矩阵乘运算。

  • KV cache 量化则进一步压缩了显存占用,支持更长的序列和更高的并发请求,大幅提升了 Decode 阶段的系统吞吐量。

  尽管低比特量化被视为 LLM 推理的灵丹妙药,但若要实现高质高效的量化,并非易事。

  1.  精度损失

  将模型参数从高精度压缩到低精度,不可避免会导致精度下降。尤其是,在极低比特数(如二值)情况下更为明显。

  2.  算法「两难抉择」

  如何去设计高效、抗噪的量化算法,在保持精度同时,降低计算和访存复杂度,依旧是行业研究重点。

  过于复杂的算法,虽能提升精度,但会增加计算开销,抵销量化的效率优势。而过于简单的算法,又会牺牲过多精度,最终导致模型效果不佳。

  3.  硬件兼容适配

  量化后的模型还需与硬件深度适配,而现有的量化算法在昇腾硬件上还有很多创新优化的空间。

  此外,量化误差的控制和推理过程中的动态调整策略,也充满了挑战。

  4.  校准集泛化性缺失

  校准集的泛化性缺失导致了在很多任务上,难以达到与原有模型相近的精度水平,甚至在某些场景下精度下降十分严重。

  不论是投机推理,还是低比特量化,都是推理优化过程核心,它们所面临的难题,是 LLM 飙速推理路上最大的绊脚石。

  而现在,华为的这套方案,彻底攻克所有挑战,解锁了 AI 模型的中国速度。

  投机推理框架 FusionSpec

  创 1ms 奇迹

  具体来说,在投机推理方面,华为团队提出了投机推理框架 FusionSpec

  FusionSpec 充分利用了昇腾服务器高计算带宽比的特点,在低时延大并发场景下,深度优化了 DeepSeek 提出的 MTP 在昇腾上的推理性能,将投机推理框架耗时减小至 1ms,并在三个方面进行了重大创新:

  1.  考虑到 DeepSeek 的模型架构,MTP 层需要主体模型的最后一层结果作为输入,将 MTP 层的执行直接排在主体模型执行之后。

  这样做带来两个优势:

  • 优化后的调度顺序避免了推理的步间数据传输

  • PD分离的部署场景下,投机模型的后置解耦了 PD 分离系统与投机框架,同时有效减少了节点间的数据传输

  昇腾基于 PD 分离部署的 vLLM 框架调度示意图

  2.  参考 MTP 层训练模式,将 MTP 层视为模型的一部分,注意力算子复用主体模型的控制参数。

  DeepSeek V3/R1 为代表的主流的大语言模型采用旋转位置编码 RoPE。在使用投机模型进行预测时,会按实际推理的 token 个数进行位置编码。

  但对 MTP 层而言,计算时会忽略输入的第 0 个 token。因此,研究团队把 MTP 层输入的第 0 个 token 舍去,前移其余 token,并复用主体模型的控制参数。

  而 RoPE 保证了对所有 token 进行平移后的 attention score 不发生改变。这样,就可以保证 MTP 层的正确计算,同时节省 CPU 上的准备时间,并简化整个系统的 block 管理。

  ·参数复用省去了控制参数的重新构造,降低了框架耗时

  通过主体模型前置与流程拼接,将单步投机推理中输入准备从两次降低为一次,避免主体模型和投机模型之间 CPU 同步打断流水,压缩了单步推理内主体模型与投机模型间的框架耗时,使得投机推理的整体框架时延与非投机场景一致。

  基于上述优化,FusionSpec 框架实现了在较低时延下的高并发、大吞吐。

  3.  实现了 NPU 上的轻量步间准备,支撑了 vLLM v0 的 multi-step 以及 vLLM v1 前后处理全异步,进一步降低了步间的框架耗时。

  除了模型结构和框架设计优化外,在算子级别的细化加速同样关键——这就是 FusionSpec 进一步优化的重点。

  · 投机场景 MLA 算子加速

  DeepSeek 提出的对多头潜注意力机制 MLA,通过对 Key 和 Value 的低秩联合压缩,不仅大幅减少了所需的 KV 缓存量,同时性能还超过了传统的 MHA。

  为了充分利用昇腾的计算能力,压缩端到端输出时间,FusionSpec 进一步优化了投机场景 MLA 计算流程,减少矩阵的搬运时间。

  投机场景下多头潜在注意力 MLA 算子优化

  ·TopK、TopP 算子加速

  在投机推理场景中,若预测m个 token,单步推理需进行1+m次词表采样操作,所以采样操作的速度变得更加重要。

  采样操作一般包含温度、TopK、TopP 三步,其中 TopK、TopP 需要排序,并且计算前缀和,这些是采样操作的瓶颈。

  未来,FusionSpec 将采用流式过滤策略、昇腾归并排序 API 优化 TopK、TopP 计算。

  量化框架 OptiQuant

  让 MoE 巨兽飞起来

  在量化方面,华为团队则提出了 OptiQuant 量化框架。

  它不仅兼容业界主流量化算法,通过一系列功能创新,为高效部署提供了强力支撑。具体来说,它有四大核心亮点:

  · 丰富的量化和数值类型

  OptiQuant 支持了 Int2/4/8 和 FP8/HiFloat8 等数据类型,与业界 Qserve、HQQ、LUT 等主流量化方法兼容。

  在此基础上,OptiQuant 创新性提出「可学习截断」、「量化参数优化」等算法,将量化误差进一步降低。

  · 业内主流评测数据集

  OptiQuant 支持多样化评测任务,包括判断题、问答题、代码题和数学题等多个方向,覆盖了十种常见的语言。

  为了提升量化模型的泛化能力,OptiQuant 还引入了混合校准集的方法,按一定的比例混合不同数据集。

  · 量化权重以及元数据的生成

  OptiQuant 提出了自适应层间混精算法和 PD 分离量化权重,并且根据对应的量化配置生成对应的权重参数,通过去冗余技术减少参数保存的参数量。

  同时,FlexSmoothQuant 等算法在数据校准过程中,将搜索到的元数据进行保存,并用于后续推理过程。

  · 量化权重推理

  OptiQuant 提出了 KVCache 量化和 MoE TopK 专家剪枝技术。

  结合昇腾亲和的量化算子,OptiQuant 通过高效数据并行/流水并行,针对不同大小的大语言模型实现精度验证性能加速,将对各个数据集精度评估性能提高了 5x 以上。

  此外,OptiQuant 还支持 Vector Quantization、DFloat11、可逆变换、量化模型微调等技术点。

  OptiQuant 量化框架

  通过 OptiQuant 和相关优化算法,华为实现了 W8A8C16/W4A8C16 的模型精度,媲美 FP8 精度的效果,并充分发挥了昇腾硬件性能。

  表1:DeepSeek-R1 模型精度测试结果

  注1:如无特殊说明, 测试为单次结果

  注2:测试 3 次以上结果取平均

  注3:单次测试结果

  表2:DeepSeek-V3-0324 模型精度测试结果

  注1:单次测试结果

  下一步,团队还将探索 PD 差异量化、KV cache 量化、TopK 专家剪枝、通用的等价变换建模、和量化微调等方向,实现更高效、更低比特的权重、激活和 KV cache 的量化模型推理技术。

  总而言之,FusionSpec 和 OptiQuant 的双剑合璧,将为超大规模 MoE 模型推理开辟了全新路径。

  这两大框架的提出,打破了 LLM 推理的延迟魔咒、资源瓶颈。

  这不仅仅是一次技术的突破,更是中国 AI 在全球舞台上的一次强势发声。

  未来,FusionSpec 推理框架和 OptiQuant 量化框架有机融合,将促使更多的创新涌现出来。

  技术报告:

  FuionSpec:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FusionSpec/%E6%98%87%E8%85%BE%E9%AB%98%E5%90%9E%E5%90%90%E6%8A%95%E6%9C%BA%E6%8E%A8%E7%90%86%E6%A1%86%E6%9E%B6FusionSpec.pdf

  OptiQuant:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptiQuant/OptiQuant-%E6%98%87%E8%85%BE%E4%BA%B2%E5%92%8C%E7%9A%84DeepSeek%E6%A8%A1%E5%9E%8B%E9%87%8F%E5%8C%96%E6%8A%80%E6%9C%AF.pdf

  技术博客:

  FusionSpec:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FusionSpec/ascend-inference-cluster-fusionspec.md

  OptiQuant:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptiQuant/ascend-inference-cluster-optiquant.md