华为开源大规模 MoE 模型推理部署技术

  日前,华为公布了基于昇腾的超大规模 MoE 模型推理加速技术「Omni-Infer」。

  官方介绍,Omni-Infer 是一套专为昇腾硬件平台定制的强大推理加速工具集,完全兼容业界目前主流的开源大模型推理框架(比如 vLLM 等),旨在提供高性能、企业级推理能力,具备原生支持且功能集持续扩展。部分核心特点方面:

  • 高级注意力机制优化:专为 LLM、MLLM 和 MoE 模型定制,增强性能与可扩展性。
  • 请求级负载均衡:针对所有序列长度优化预填充(prefill)和解码(decode)阶段,实现最大吞吐量与低延迟。
  • 优化的 MoE 专家部署:支持 EP144/EP288 配置的大规模混合专家(Mixture of Experts, MoE)模型。
  • MoE 专家负载均衡:具备分层非均匀冗余和近实时动态专家放置功能,提升资源利用效率。

  目前,Omni-Infer 已公布技术报告及可分析代码包等内容。

  技术报告及可分析代码包:https://gitcode.com/ascend-tribe/ascend-inference-cluster

  源代码开发协作:https://gitee.com/omniai/omniinfer

  GitHub:https://github.com/omni-ai-npu/omni-infer