近日,华为公布了 AI 基础设施架构的新进展,推出 CloudMatrix 384 超节点,并已上线。而《科创板日报》消息,华为云 CloudMatrix384 超节点今年上半年将有数万规模的上线。华为内部人士称其为「核弹级的产品」,或将彻底终结算力焦虑。
2024 年 3 月,英伟达率先发布了 NVL72 超节点,可以把 72 张训练卡组成一个超节点,为万亿参数的大型语言模型推理提供了 30 倍实时速度提升。而本次华为 CloudMatrix 384 更进一步,以 384 张昇腾算力卡组成一个超节点,在目前已商用的超节点中单体规模最大。
据悉,华为 CloudMatrix 384 在规模、性能和可靠性上对标英伟达 NVL72:
- 基于 CloudMatrix 的昇腾 AI 云服务,大模型训练作业可稳定运行 40 天,互联带宽断点恢复在 10 秒级别。
- 在互联带宽上,超节点网络交换机采用 6812 个 400G 光模块,实现 2.8Tbps 卡间互联带宽。
- 报道援引硅基流动消息,硅基流动已经联合华为云基于 CloudMatrix 384 超节点昇腾云服务正式上线 DeepSeek-R1,在保证单用户 20TPS 水平前提下,单卡 Decode 吞吐突破 1920Tokens/s,可比肩 H100 部署性能。
- 目前,国产芯片与英伟达芯片在单卡性能方面仍存在一定的差距,但通过多卡集群后差距就会缩小。华为公布的数据显示,CloudMatrix 384 实现算力规模达 300PFlops,相比英伟达 NVL72 的 180PFlops 提升 67%。
报道指出,在单位算力功耗方面,国产芯片仍比英伟达高得多。芯片业内人士通过报道表示,华为公开的数据没有提到 CloudMatrix 384 的算力功耗比。更高的功耗对于服务器散热要求也更高,机房规模会更大,导致整体成本上升。此外,算力卡数量较多的话,数据需要在多卡之间来回传输,会有更大的时间开销。