华为云Tokens服务全面接入384超节点

  8 月 28 日消息,在第四届 828 B2B 企业节开幕式上,华为云宣布其 Tokens 服务全面接入 CloudMatrix384 超节点,通过 xDeepServe 架构创新,单芯片最高可实现 2400TPS、50msTPOT 的超高吞吐、低时延的性能。

  今年 3 月,华为云正式推出了基于 MaaS 的 Tokens 服务。针对不同应用、不同场景的性能和时延要求,还提供了在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、Agent 智能体等 AI 工具提供了更为灵活、便捷、低成本的先进算力。

  而这一次,华为云的 Tokens 服务正式接入 CloudMatrix384,并通过 384 原生的 xDeepServe 框架再次实现了吞吐量的突破,从年初的 1920TPS 提升至 2400TPS,TPOT 仅为 50ms。

  大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新,充分依托了华为的“大杂烩”能力。

  首先,CloudMatrix384 超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基; CANN 昇腾硬件使能,优化算子与高效通信策略,让云端的算力能够以最高效的方式被调用和组合;EMS 弹性内存存储打破 AI 内存墙,突破性地实现“以存强算”, 彻底释放了每一颗芯片的算力;xDeepServe 分布式推理框架则以极致分离架构 Transfomerless 让超节点释放出更高效算力。

  作为 CloudMatrix384 超节点的原生服务,xDeepServe 以 Transformerless 的极致分离架构,把 MoE 大模型拆成可独立伸缩的 Attention、FFN、Expert 三个微模块,相当于在一台 CloudMatrix384 上把“大模型”拆成“积木”,并分派到不同的 NPU 上同步处理任务。之后,再用基于内存语义的微秒级 XCCL 通信库与 FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的 LLM 服务平台,即 Tokens 的“超高速流水线”。通过 xDeepServe 不断调优,最终实现了从非超节点单卡吞吐 600tokens/s至超节点单卡吞吐 2400tokens/s的提升。

  作为硬件加速计算的中间层,CANN 包含多个算子库和和 XCCL 这种高性能通信库等组件,共同支撑 AI 模型的高效运行。其中,XCCL 作为专为超节点上的大语言模型(LLM)服务而量身打造的高性能通信库,能够充分发挥 CloudMatrix384 扩展后的 UB 互联架构(UB fabric)的全部潜力,为 Transformerless 的全面分离奠定了带宽与时延双重硬底座。

  而作为被重构的“去中心”式分布式引擎,FlowServe 把 CloudMatrix384 切成完全自治的 DP 小组,每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈,完全自给自足,做到千卡并发也不“拥堵”。

  目前,xDeepServe 已实现 MA 分离,而下一步,将把 Attention、MoE、Decode 全部改成自由流动的数据流,并把同样的拼图方法复制到多台超节点,让推理吞吐像铺轨一样线性延伸,最终或将视线吞吐量的更大突破,让每块 NPU 都高效运作,芯片永不排队,推理永不塞车。

  目前,华为云 MaaS 服务已支持 DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan 等主流大模型及 versatile、Dify、扣子等主流 Agent 平台。

  在应用层,华为云已与超过 100 家伙伴携手深入行业场景,共建丰富的 Agent,在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题,让企业更便捷地拥抱 AI 创新,加速智能化。(崔玉贤)