华为开源大规模 MoE 模型推理部署技术

　　日前，华为公布了基于昇腾的超大规模 MoE 模型推理加速技术「Omni-Infer」。

　　官方介绍，Omni-Infer 是一套专为昇腾硬件平台定制的强大推理加速工具集，完全兼容业界目前主流的开源大模型推理框架（比如 vLLM 等），旨在提供高性能、企业级推理能力，具备原生支持且功能集持续扩展。部分核心特点方面：

高级注意力机制优化：专为 LLM、MLLM 和 MoE 模型定制，增强性能与可扩展性。
请求级负载均衡：针对所有序列长度优化预填充（prefill）和解码（decode）阶段，实现最大吞吐量与低延迟。
优化的 MoE 专家部署：支持 EP144/EP288 配置的大规模混合专家（Mixture of Experts, MoE）模型。
MoE 专家负载均衡：具备分层非均匀冗余和近实时动态专家放置功能，提升资源利用效率。

　　目前，Omni-Infer 已公布技术报告及可分析代码包等内容。

　　技术报告及可分析代码包：https://gitcode.com/ascend-tribe/ascend-inference-cluster

　　源代码开发协作：https://gitee.com/omniai/omniinfer

　　GitHub：https://github.com/omni-ai-npu/omni-infer

作者：itwriter
来源：互联网
日期：2025-07-03
浏览 (1692)