日前,华为公布了基于昇腾的超大规模 MoE 模型推理加速技术「Omni-Infer」。
官方介绍,Omni-Infer 是一套专为昇腾硬件平台定制的强大推理加速工具集,完全兼容业界目前主流的开源大模型推理框架(比如 vLLM 等),旨在提供高性能、企业级推理能力,具备原生支持且功能集持续扩展。部分核心特点方面:
- 高级注意力机制优化:专为 LLM、MLLM 和 MoE 模型定制,增强性能与可扩展性。
- 请求级负载均衡:针对所有序列长度优化预填充(prefill)和解码(decode)阶段,实现最大吞吐量与低延迟。
- 优化的 MoE 专家部署:支持 EP144/EP288 配置的大规模混合专家(Mixture of Experts, MoE)模型。
- MoE 专家负载均衡:具备分层非均匀冗余和近实时动态专家放置功能,提升资源利用效率。
目前,Omni-Infer 已公布技术报告及可分析代码包等内容。
技术报告及可分析代码包:https://gitcode.com/ascend-tribe/ascend-inference-cluster