图片系 AI 生成
“信心,比黄金和货币更重要。”
2008 年经济危机之时,金融风暴席卷全球,来势很猛、速度很快,使西方各大国无不疲于奔命,虽然采取了多种措施救市,提振本国经济,无奈效果不佳。
“在经济困难面前,信心比黄金和货币更重要。”中国发声并挺身而出,站在了应对金融危机的最前沿。
此时此刻,恰如彼时彼刻。无论是宏观经济环境的封锁,还是世界产业链的逆全球化,企业像是时代海洋里的一叶扁舟,努力地找寻方向,努力地让自己不至于顷刻翻覆。
华为可能是最有感触的一家,一方面,本次华为被置于战场前线,受到了最为猛烈的炮火轰击;另一方面,华为上一次严重危机,正是 2008 年经济危机所造就。
经历过危机的老华为人有些熟悉,同样是在公司保持连年增长的势头上,然后突然发生黑天鹅事件,华为的应对也有一些相似,大致的三部曲可以理解为,先聚焦主业,强调利润和现金流;再激活组织活力,让能打粮食的人到一线;最后也是最关键的一步,创新致胜,确保自己的创新跟上时代。
2022 年,华为创始人任正非在内部讲话中提到,如果按计划在 2025 年我们会有一点点希望,那么我们要先想办法度过这三年艰难时期,生存基点要调整到以现金流和真实利润为中心,不能再仅以销售收入为目标。
到了 2024 年,华为实现全球销售收入 8621 亿元,同比增长 22.4%,创下 2021 年之后的新高,净利润 626 亿元,经营收入开始恢复。
至此为止,华为还不能说完成度过危机的三部曲。任正非曾提到,“中国 99% 的公司可以与美国合作,他们没有受到制裁,他们的芯片算力比我们的高,他们能买到的东西比我们好。在这样的条件下,未来几年我们能不能为生存活下去?我们还在挣扎中,内部还在讲怎么克服很多困难。”
自 2019 年 5 月 16 日开始,华为连续几年遭遇制裁,烈度不断升级,耗费了大量的人力、物力、财力恢复业务连续性,不止是为了确保基本的经营,更是要在美国封禁最严苛的领域蹚出一条路。
华为依旧处于危机之中,如果不能在 AI 算力领域成为世界第二极,那么华为逃不过这场慢性衰落,可能在国内有足够的生存空间,但在国际市场失去竞争力,对于中国 AI 产业来说,大概也是如此。
华为公司常务董事、华为云计算 CEO 张平安
华为以及中国 AI 算力产业都需要信心,远比当下的现金流和利润还重要得多,这也是为何当华为云计算 CEO 张平安拿出了 AI 基础设施架构突破性进展——CloudMatrix 384 超节点之后,迅速吸引了中国 AI 产业的集中关注。
历史上多数企业由危转机的拐点,往往都是用颠覆性创新开启新一轮增长周期。
“天下苦英伟达久矣”
英伟达攫取了大模型行业发展至今的绝大部分利润,几乎垄断了 AI 算力,全世界不少聪明的头脑都在思考同一个问题,如何突破英伟达的“封锁”,不仅仅是国内 AI 产业,国外的诉求同样迫切。
如果用一个关键词来形容 AI 算力产业,“冰山之下”大概最为合适。微软、谷歌、亚马逊等云计算巨头加速自研 AI 芯片,削弱对英伟达的依赖,国内厂商受限于宏观环境,更难获得最新的 AI 算力产品,不得不在产业链缺失的条件下自研。
所有人都能看到水面之上的英伟达,“挤牙膏式”更新迭代着自己的产品,更大的算力、带宽,更强的生态绑定,榨干 AI 产业的每一分资本支出,但是国内和国外厂商的诸多 AI 算力研究还潜藏在水面之下,等待合适的时机。
一个时代有一个时代的计算架构,英伟达取代英特尔如此,其他厂商要对标甚至取代英伟达,也需要以年为周期的持久投入,以及一点幸运,毕竟谁能想到做游戏显卡,能成 AI 算力巨擘。
没有一家厂商,比华为更想在水面之上自由呼吸,海外巨头在自研和采购英伟达之间尚有妥协空间,华为以及对 AI 算力有需求的所有中国企业别无他法。
在介绍 CloudMatrix 384 超节点之前,有必要引入英伟达的 NVL72,2024 年英伟达 GTC 大会上,最大的亮点不是 Grace Blackwell 架构,不是 NVLink domain,不是精度软件优化液冷等等,这些单点技术突破都足够优异且常规。
但是 NVL72 这个极致压缩又极致耦合的架构,为万亿级大模型训练和推理层面提供了前所未有的性能。
在训练方面,与上一代产品相比,通过 32k GB200 NVL72 训练 1.8 万亿参数的 GPT-MoE 模型性能可提升 4 倍。推理方面,GB200 NVL72 加上 FP4 精度和第五代 NVLink 等诸多技术,与上一代产品相比整体效率提升了 30 倍。
简单理解,大模型的 Scaling Law 意味着算力越大,模型越智能,而随着模型规模的增大,每增加相同数量的参数或计算资源,获得的性能提升逐渐减少,但是 NVL72 这种架构提供了更强的算力,且实现了平均 token 成本更低的 Scale-up。
中国 AI 算力产业在单点层面还追不上英伟达产品,专为万亿大模型优化的 AI 算力集群,似乎又把战局拉得越来越远,此时,CloudMatrix 384 超节点出现了。
被DeepSeek送上风口
面向 AI 时代的海量算力需求,华为云基于“一切可池化、一切皆对等、一切可组合”的新型高速互联总线架构推出 CloudMatrix 384 超节点,实现从服务器级到矩阵级的资源供给模式转变。
CloudMatrix 384 超节点
CloudMatrix 384 具备“高密”“高速”“高效”的特点,通过全面的架构创新,在算力、互联带宽、内存带宽等方面实现全面领先。
寥寥数语不足以显示 CloudMatrix 384 超节点的价值,先上结论,CloudMatrix 384 超节点是在芯片制程、模型精度、HBM 带宽等基础条件均受限的情况下,在实际业务场景中击败了英伟达同等对标产品的创新,走出国内突破 AI 算力封锁的跨越性一步。
譬如其中的高速互联总线,能够将 GPU、CPU 等各种不同的计算设备,都可以实现直接互联,不需要经过 CPU 中转通信,这是大参数模型仍然能取得高性能的前提。
少有人知道,CloudMatrix 384 超节点的诞生,背负着怎样的压力。在基础算力不如英伟达的情况下,内部也有不少人持怀疑态度,技术是理性的,但创新需要一些感性思维。
昇腾和英伟达先天存在差异,英伟达的路线不能照搬,这是一条必须自己蹚出来的路。有 NVL72 在先,国内 AI 算力厂商自然会尝试同等规模的算力集群,但是要不要做到 384 节点这么大,这意味着更大的不确定性。
成本直线上升不说,而且结果预期并不明确,不是堆节点就能堆出来大算力集群,国内其他厂商如果处理不好网络等一系列相关问题,更多的节点只会意味着更多的浪费,产品也没有竞争力。
彼时大模型的发展脉络还不清晰,384 节点的大胆预研可能会造成浪费,错失一些关键机会,华为云承受着巨大的压力,创新的同义词就是风险,但是如果不做,跟在英伟达后面永远不可能超过英伟达。
新技术的发展,总是有一些不约而同的“巧合”,当 DeepSeek 的出现改变了大模型行业的走向,华为云惊喜地发现,此前有些模糊的预判得到了证实,上层大模型驱动底层 AI 基础设施朝着超节点的方向演进。
DeepSeek 的模型训练采用 MoE 架构,MoE 模型通过门控网络动态选择激活的专家,如 DeepSeek-V3 每层包含 257 个专家,每次仅激活 8 个专家,这导致不同 GPU 节点间需要频繁交换数据,在训练过程中会因 All-to-All 通信导致 GPU 闲置等问题。
此外,MoE 模型里专家可能“冷热不均”,有的专家被频繁调用,有的闲置,同时传统单机 8 卡架构无法满足 MoE 模型对专家数量的扩展需求。
DeepSeek 开源大模型不仅是算法的胜利,其突出价值表现在从底层优化 AI 模型的可能性,起初 DeepSeek 在英伟达 H100 的基础上做训练,但是外部团队很难复现 DeepSeek 模型的效果的效率,即便用同样的 H100 也不行。
随后 DeepSeek 公布了一系列软件仓库,相当于把自己的调优过程做成了教程,但是行业发现,若采用单机部署方案,最终的性能远不如 DeepSeek 官方公布的部署方案,且至少有数倍成本差距。更具挑战的是,虽然 DeepSeek 公开了大 EP 并行方案,但技术难度较大,业内还没有其他团队快速复现这一部署方法。
回过头看,DeepSeek 在 AI 基础设施层面做大量的工程创新是无奈之举,英伟达巴不得大模型训练用更多的卡,DeepSeek 用更少的卡实现了更优的计算效果,一定程度上影响了英伟达 GPU 的销量。
在 DeepSeek 之后,英伟达才优化了自己的 GPU,使其适合 MoE 架构的训练,这更像是一种被动式的响应客户需求。但是华为云 CloudMatrix 384 超节点不同,在 DeepSeek 之前,华为云其实并不完全确定 CloudMatrix 384 超节点是否能让客户愿意买单。
市场会奖励押中未来的创新者,华为云目前是业界唯一采用对等架构超节点技术提供算力服务的云厂商,数据显示:CloudMatrix 384 超节点的算力提升幅度高达 50 倍,达 300Pflops,相比 NVL72 提升 67%;网络带宽提升了 1 倍;超节点的内存(HBM)带宽则提升了 1.13 倍。
这不是 PPT 数据,而是实际业务场景中的效果。硅基流动联合华为云基于 CloudMatrix 384 超节点昇腾云服务和高性能推理框架 SiliconLLM,用大规模专家并行最佳实践正式上线 DeepSeek-R1。
该服务在保证单用户 20TPS 水平前提下,单卡 Decode 吞吐突破 1920Tokens/s,可比肩 H100 部署性能。同时,经过主流测试集验证及大规模线上盲测,在昇腾算力部署 DeepSeek-R1 的模型精度与 DeepSeek 官方保持一致。
以往对标英伟达同等产品的国内算力卡,在实际业务场景可能要打个五折,甚至低至两折,基于华为对标 H100 的算力卡,华为云实现了在单芯片性能略逊的情况下,通过一系列优化措施超过 H100 的业务效果。
华为云是如何做到的?
坦诚而言,在 AI 算力层面,包括华为在内的国内算力,距离英伟达还有不小的差距,但是华为云另辟蹊径,在前方没有路标的情况下,找到了一条突破英伟达封锁的路线。
华为的解决方案是“用非摩尔定律的方法解决摩尔定律的问题”,单个芯片算力不足,就用 Chiplet 来封装,同样的芯片数量依然不足达到 NVL72 的水平,那就上升一层做系统级创新,结合华为在联接领域的老本行,以及其他系统级优化能力,实现了比 NVL72 更高的集群算力利用率。
华为公司副总裁张修征也指出:“应以空间换算力、带宽换算力、能源换算力,应把算力、存力、运力、电力作为一个复合要素考虑,这一系统性思维在刚刚发布的 CloudMatrix 384 超节点上体现得尤为明显。”
不同于业界此前的方案,CloudMatrix 384 超节点技术跳出单点技术限制走向系统性、工程性的创新,从“堆芯片”走向“拼架构”,走出突破 AI 算力封锁的跨越性一步,让许多 AI 应用落地难题有了迎刃而解的契机。
张修征强调:“伴随架构创新的突破,昇腾 AI 云服务在推理效率、模型精度上已经持平于业界领先水平,在某些领域如智驾等已经领先于业界,这或将彻底终结大家的算力焦虑。”
48 台 384 卡的紧耦合互联,打造成一个超级云服务器,实现算力规模 50 倍提升,值得一提的是,英伟达用了 72 个 GPU,华为云用了 384 个 NPU,在性能实现赶超的情况下,功耗只是小幅提升,而不是等比例提升。
但这也不得不带来另一个烦恼,当大模型算力集群变得愈发复杂,数千根光纤的物理交互、高密的算力和网络设备,液冷支撑体系等,一般企业难以维护 CloudMatrix 384 超节点这样的基础设施,华为云也提前考虑到了难题,给出了解决方案。
传统云服务以单台服务器为交付单元,超节点通过“云的方式”来提供服务,对用户来说性价比是远远大于自建数据中心。
一是超节点建设成本高,自建费时费力,芯片更新换代快,采用自建 IDC 方式,将会大大增加客户的建设成本。
二是超节点运维难度高,因其架构复杂,涉及到的运维工具更多。支持大模型的智算中心故障率要远高于普通数据中心,华为云独有的系统能力,可以帮助超节点长稳智能地运维,能更好地帮助客户解决问题。
张平安表示,面向智能世界,华为云致力于做好行业数字化的“云底座”和“使能器”,加速千行万业智能化。依托 AI 全栈能力,华为云将坚定打造“自主创新、安全可信”的 AI 算力底座,依托昇腾 AI 云服务推动各行各业 AI 快速开发落地。
《孙子兵法·谋攻篇》写道:故上兵伐谋,其次伐交,其次伐兵,其下攻城。攻城之法,为不得已。英伟达的存在让很多人感到无力,怀疑中国算力产业能不能、需要多久才实现算力第二极的目标。
某种意义上 AI 产业之争就是信心之争,中国算力产业需要更多诸如 CloudMatrix 384 超节点之类的创新,乌云依旧在,也可能长时间笼罩在头顶,但至少我们看到了一道裂缝,信心比什么都重要,这才是华为云之于中国 AI 产业更重要的意义。(本文首发于钛媒体 APP)