老黄再出奇招!首推「特供版」GB20服务器,或将明年上市

  新智元报道

  编辑:编辑部

  外媒爆料,英伟达将于明年推出一款专为中国市场定制的 AI 芯片,甚至还专研了一款与之搭配的服务器,这在英伟达历史上还是首次。

  英伟达与美国商务部的角力又升级了!

  在美国出口管制之下,老黄不断拿出变通之策,一场猫鼠游戏正在上演。

  出口管制新规实施以后,没少耽误老黄在中国市场赚钱。

  截至今年 1 月,出口新规恰好实施一年,中国市场占英伟达收入的比例下降至 17%。两年前,这个数字还是 25%+。

  面对监管,英伟达连续推出为中国定制的「特供版」芯片,然而这些性能削弱的芯片往往销路不畅。

  此前出师不利的 H20 销量刚刚见涨,英伟达却惊闻噩耗——

  杰富瑞分析师在上周的一份研究报告中透露,美国商务部将于 10 月份对半导体出口限制进行年度评估,可能会禁止 H20 芯片的出口。

  监管不断升级,这一次,老黄彻底拼了。

  不仅推出了新旗舰 AI 芯片 B20,担心它不够好用,还推出了配套服务器 GB20。

  从命名就不难猜出,B20 是英伟达今年三月发布的 Blackwell B200 的一个变体。

  作为迄今为止最快的 GPU, B200 在某些任务上的处理速度可以达到前代产品的 30 倍。(eg.让聊天机器人生成答案)

  可惜,这与「特供版」B20 芯片可以说是毫无关系……

  在美国出口管制政策限制下诞生的 B20,注定会是一款入门级产品,与具备行业领先 AI 性能的 B200 形成鲜明对比。

  但据爆料人表示,虽然 B20 在处理 AI 计算时会比 B200 慢一些,但在 GB20 服务器中将大量芯片安装在一起,可以部分弥补这种缺陷。

  这将确保英伟达在与中国产品交锋时,保有一定的竞争力,同时也符合美国出口管制规定的芯片计算能力上限。

  管制之下,上演「猫鼠游戏」

  自 2022 年年底以来,英伟达多次重新配置面向中国市场的芯片,瞄准了中国客户需要芯片来开发 LLM 的需求,试图在符合美国法规的同时,保持对中国客户的吸引力。

  2022 年 10 月,美国政府禁止销售英伟达的 A100 和 H100(当时是其最先进的人工智能芯片)。

  几个月后,英伟达就针对中国市场推出了两款替代产品 A800 和 H800。

  此后不到一年,美国商务部再次更新了出口管制措施,对这两款芯片实施了限制。

  英伟达反应迅速,

  其中,H20 芯片性能有限但连接速度更高,凭借高带宽内存和成熟的软件支撑,带来了较优的性能。

  虽然初期销量不济,但比较之下,越来越多的中国客户选择购买这款芯片。

  据四位直接参与英伟达芯片在中国销售的人士透露,中国公司已经订购了 50 多万颗 H20 芯片,总价值近 58 亿美元,将于 2024 年交付。

  研究机构 SemiAnalysis 也做出了乐观的估计,英伟达今年将在中国销售超 100 万颗 H20 芯片,价值超过 120 亿美元。

  但正如前文所述,这项业务面临商务部新的威胁。等到年底法规调整,H20 或将禁售。

  该禁令可能会采用多种形式,包括针对特定产品的禁令、降低芯片的计算能力或限制其内存容量。

  毕竟宏观背景如此,外界普遍预计美国将继续对半导体相关出口管制施加压力。

  消息人士称,美国希望荷兰和日本进一步限制向中国提供芯片制造设备。

  在不断加强的管制之下,可能会有越来越多的「特供版」出现。

  有传言称,英伟达还在开发一款新的旗舰游戏显卡 RTX 5090D。

  该显卡将专为中国市场设计,是首款面向消费者并符合出口标准的显卡 RTX 4090D 的后续产品。

  芯片性能不够,服务器来凑

  B20 的具体规格还未确定,但可以确定的是,绝对不会打破美国 GPU 出口政策「天花板」。

  就像它的老前辈——之前推出的 H20、L20 和 L2,这 3 个芯片的性能都可谓是「史诗级」大缩水,不仅性能是残血的,而且还只配备了残血版的 NVLink 连接。

  TPP & PD 两大指标锁喉

  美国对中国 GPU 出口有严格的性能规定,采用一种名为「总计算性能」(Total Processing Power,TPP)的指标。

  该指标将 GPU 计算能力的 TFLOPS 和精度纳入考量。具体来说,将 TFLOPS(不含稀疏性)乘以精度(以位为单位)即可得出 TPP。

  当前的限制设定在 4800 TPP,这意味着什么呢?

  以英伟达之前的产品为参考:Hopper H100 和 H200 已经远远超过了这一标准,两款 GPU 的 TPP 均达到了 16000,是规定上限的 3 倍不止。

  即使是 RTX 4090,其 660.6 TFLOPS 的 FP8 计算能力也超过了限制。

  保持在 4800 TPP 限制内的最强大的英伟达桌面 GPU 是 RTX 4090D,它是专门为遵守出口限制而构建的。

  Blackwell 在计算性能方面树立了新的标杆,其双芯片解决方案可能会输出约 4500 TFLOPS 的 FP8 计算能力,这将是出口限制的 7.5 倍。

  换言之,B20 的性能将不足 Blackwell B200 性能的1/7!

  不仅如此,B20 还面临额外的限制——「性能密度」(Performance Density,PD)限制。

  这是美国对数据中心 GPU 专门实施的限制,消费级 GPU 不受此影响。

  将 TPP 分数除以芯片尺寸即可得到 PD 指标,对中国出口的 GPU 的 PD 不得高于 6.0。

  按照这个指标,RTX 40 系列 GPU(Ada Lovelace 架构)已经不可被用于数据中心使用。

  而 Blackwell 在密度和性能上,明显要优于 Ada Lovelace。

  也就是说,英伟达需要严格限制 B20 的性能,或使用更大比例的芯片,以符合相关规定。

  据 Tom's Hardware 预计,B20 将成为英伟达 A30 和 H20 入门级 AI GPU 的继任者。

  以 H20 为例,其 FP16 计算能力仅为 296 TFLOPS,TPP 为 2368,PD 仅为 2.90,而 H100/H200 则为 1979 TFLOPS。

  与此同时,A30 的 TPP 评分为 2640,PD 评分为 3.20,比 H20 略有提升。

  由此可见,英伟达为中国市场打造的 AI GPU 在性能上有一定进步空间,但空间很有限。

  最好的情况是,英伟达可能会寻求创建一个 TPP 在 4000 到 4500 之间,芯片尺寸为 800 平方毫米的 GPU。

  GB20:全力挽救 B20 的性能

  为了提高即将推出的 B20 的效率,英伟达正在采用 H20 曾经使用过的策略,例如升级内存容量,因为内存芯片不受当前出口管制的限制。

  据参与开发服务器的两位人士透露,英伟达正在努力提高内存与 B20 处理器之间的数据传输速度,从而可以更快地处理大型能数据集。

  不仅如此,英伟达还将在 GB20 机架设计中采用其 NVLINK 技术(可实现不同芯片之间的快速通信)和冷却方案。

  两人补充道,这有望提高 B20 芯片的利用率和 GB20 计算集群在为人工智能提供动力方面的有效性。

  GB20 系统将使客户能够通过更高效地并行运行多个芯片来进行人工智能训练和推理。

  在 GB20 被曝出之前,Tom's Hardware 曾大胆预测,B20 将是一款难以销售的芯片。

  但现在有了 GB20 的加持,似乎又有了新的希望。

  参考资料:

  https://www.tomshardware.com/pc-components/gpus/nvidia-preparing-a-china-focused-variant-of-its-b200-blackwell-ai-gpu-to-comply-with-us-export-regulations

  https://www.theinformation.com/articles/nvidias-new-china-chip-has-special-server-design-to-skirt-u-s-rules