GPU国产替代潮,无路可退,也没有人想投降

  【代题记】

  “预计到 2020 年,国际上微电子技术水平将发展到 14 纳米。我们应该清醒地认识到,核心技术是买不来的,必须靠我们自己,只是一代又一代的引进新的生产能力是赶不上世界先进水平的。我们研究人人员要争口气,否则发达国家在核心技术方面总是要卡我们的脖子。”                                                                         

  ——江泽民 《努力把握微电子、软件和计算机产业的技术主动权》(2006 年 12 月 10 日)

  “如果因为层层加码的外部限制,就直接啥也不做了。那我当初创业是为啥呢?”一名头部国产 GPU 创业公司的 CEO 对品玩表示。

  2022 年 10 月 7 日,美国商务部下属的工业和安全局(BIS)发布厚达 139 页的对华半导体出口管制措施,影响程度被形容为“把对华为的管制扩大到整个中国半导体产业”。这次扩大的限制并非毫无征兆,8 月 31 日,英伟达披露美国政府已对其提出出口管制要求,禁止其两款高性能 GPU 产品出口中国。

  这些步步紧逼的限制封锁指向的一个重要目标,就是极度依赖GPU算力来发展的人工智能。

  支撑人工智能的深度学习系统,可以存在于你的手机里,但更多时候需要数据中心里连在一起的机器“集群”来实现。数十个鞋盒一样大的服务器层层叠插在和人一样高的“货架”上,一排排架子再塞满仓库一般的数据中心。一颗颗 GPU 就运转在这些盒子一样的“仓库”里。

  今天在世界各地的大“仓库”里,英伟达的 GPU 最多。而这些 GPU 的计算能力超出普通人的想象,甚至最大胆的科幻家也会感到惊奇——在 2003 年的科幻电影《终结者3》里,那个差点毁灭人类的超级计算机“天网”,算力为 60tflops(也就是每秒 6 万亿次浮点计算),今天英伟达最先进的数据中心 GPU H100,在特定精度下,算力达到了 67 TFLOPS。

  与算力一样迅猛增长的还有市场规模。根据 Verified Market Research 估算,预计 2027 年中国大陆 GPU 市场规模将超过 345.57 亿美元。

  这是一个前所未有的大市场,也是一个被封锁最深的技术领域。美国人几近疯狂的限制,想要遏制中国本土企业取得任何进步,但面对一生难遇的巨大机会,给外国巨头打工多年的华人芯片从业者没人想要再退缩。

  “我们能够替代它”

  2018 年 6 月,出乎业界预料的,AMD 抢在英伟达之前,发布了全球首款 7 纳米制程的 GPU 芯片,命名 Radeon Vega。这款产品并非针对游戏市场,而被定义为专为人工智能和深度学习设计,用于工作站和服务器。

  让人工智能达到今天的水平的一大功臣是神经网络。

  神经网络本质上依靠的是大量的乘法和加法:当一个网络中的“神经元“彼此激活时,它们也会对彼此的信号进行放大或者缩小,乘以一些权重数。

  这个过程其实就是在计算大量的加法和乘法。而 GPU 最初被设计出来要解决的就是类似的工作:快速的同时做大量乘法和加法,来算出所有图形,从而生成游戏里的一个个画面。

  GPU 的巨大机会从游戏转移到人工智能的市场,而这块首个 7 纳米 GPU 的发布,也意味着在显卡行业追赶英伟达的 AMD,把战火也引入到了人工智能行业。

  这个激进的策略充满挑战,AMD 的高管当时形容:“转换到 7 纳米制程是近几代芯片设计最困难的路程,涉及使用新 CAD 工具及多项设计改变。7 纳米的晶体管连接方法比较特殊,AMD 必须与半导体厂更加密切的合作”。

  不过,在当时对这块芯片的各种讨论中,却基本没人提及负责设计它的团队。

  2018 年,钱军在 AMD 上海负责 GPU SoC 核心部门,带领 800 多人的团队,从他团队手上流片的芯片已有 40 多颗。在诸多国外芯片厂商中,AMD 是在中国建设研发团队最积极的那个,到 2018 年这个研发团队规模数千人。这块全球第一枚 7 纳米 GPU 芯片,就是钱军带领的团队开发的。

  而六个月后,钱军离职创业,创办中国芯片公司——瀚博半导体。

  2018 年的 GPU 和芯片创业领域,其实国产替代的概念还没有今天这么强的压迫感,也没有伴随而来的热钱。在事业蒸蒸日上的时候离开 AMD,钱军自己称,就是因为自己认为自己能做的更好。

  “做芯片的初创公司很长时间不受待见。投资人觉得投入大回报周期长,有很大不确定性。但 2012 年机器学习的概念把人工智能推向风口浪尖,人们意识到算力和需求的 gap(鸿沟)非常大。2015 年谷歌推出 TPU 后,从硅谷到中国出来了很多初创公司。2018 年我看到这个机会,我觉得我应该出来做,我能把这事做好。”钱军在一次分享中说。

  很快一支核心团队成型。熟悉他的人称,钱军一呼百应,本就在 AMD 上海公司内部研发团队里号召力强。“很多人愿意跟着他干。”

  这个新组建的有平均 15 年 GPU 开发经验的团队,并没有一上来就发布和英伟达对标的 GPU 产品,他们先用了两年研发并交付客户流片了一款 7 纳米的半定制芯片,之后在 2021 年第一季度量产首款服务器级别的智能芯片 SV100 和通用加速卡 VA1。简单来说,这些芯片针对 AI+ 视频的场景开发,而这些场景目前使用的主流的芯片也是英伟达的 GPU 芯片。

  在 2022 年 9 月的人工智能大会上,钱军又发布了已经在用户机房里用起来的新一代产品——VA10。

  根据他的介绍,VA10 在一些主流应用场景的算力是破纪录的,最适合各种需要高实时性的云端 AI 应用部署,如直播视频增强、智慧交通管理、实时语义理解等。

  “这个芯片在客户端,有时候可以看得见是 100% 打完,而且没超功耗。这个就厉害了。业界其他的竞品有他们的想法,我觉得最终不用纸上评判,你拿出来大家去跑,也别看你有多少 Tops,我有多少 Tops,就看做到同样的效果,我的功耗会不会比你更好。”他说。

  “想知道具体怎么做到的,我们签个 NDA,可以聊聊。”钱军略开玩笑的说。

  与这些枯燥的数据相比,实际上对英伟达的替代才是更直观的实力证明。在被问到对英伟达的替代效果时,钱军介绍,在一些功能场景上,“瀚博 75 瓦的卡就已经可以替代它 150 瓦的卡”。

  “现在任何形式的服务器结构,我都可以有对应的产品去跟我的对手去竞争,然后替代,所以完完全全现在是个全替代。”他说。

  而瀚博还在研发一款 GPU,SG100。“我们很快会正式对外发布。”“有全球第一颗 7 纳米 GPU 和第一颗 7 纳米 GPGPU 架构 AI 芯片开发经验,而且不只是一个人有。”一名国资背景的投资方对品玩说,他们正是看中了钱军的号召力和下面成建制的团队。“相信他未来能打仗的原因是打过胜仗。”

  但即便这样,瀚博的团队也不是中国 GPU 创业热潮之下处在聚光灯里的最亮眼明星。

</p><p>  

  中国 GPU 创业潮里,从背景看着实星光璀璨。由英伟达中国区前负责人张建中在 2020 年创立的摩尔线程,于今年 3 月发布了 12 纳米的首款 GPU——苏堤;由 AMD 中国前图形研发高级总监陈维良创立的沐曦等待着首款 7 纳米工艺 GPU 产品的量产,2015 年底成立的天数智芯去年 3 月已发布 7 纳米 GPU—— 天垓 100。其中最被津津乐道的,则是 2019 年成立的壁仞,它一出生就融到超过 47 亿元的资金,目前尚未量产产品,但今年 8 月正式发布了对标英伟达最精锐 GPU 的产品:BR100。

  因为种种原因,国内对壁仞的关注也更多聚焦在了张文的身上。多个媒体讲述过这名芯片技术门外汉、原商汤科技总裁,通过一张名单拉来诸多技术高手并借此又拿到巨额融资的故事。壁仞被描述为一个资本大潮的集大成者。

  但在这个故事的另一面,是华人芯片高端人才前所未有的一次整合。

  多名中国和硅谷的芯片从业者表示,壁仞这家中国GPU公司因技术上新尝试而受到来自全球芯片行业的关注程度,是近年中国公司少有“享受”的待遇。

  与瀚博不同,壁仞选择的路线是“一步到位”研发 GPU。在 8 月发布 BR100 后,9 月,壁仞出现在全球最受瞩目的芯片行业会议 HotChips 上,在 GPU 板块,跟在英伟达,AMD 和英特尔之后做了主技术分享。

  “我发现 BR100 的架构思路很有意思,它打市场时显然不想完全沿着英伟达的思路去做。”一名硅谷芯片行业的华裔资深架构师对品玩表示。

  “GPU 采用多核结构,并行计算很厉害,但问题又来了,核数再多以后,数据和存储都要从一个门进出,虽然核内计算是很厉害的,但是数据和存储有瓶颈,就像我们经常说的 CPU 太快了,内存跟不上了,GPU 的数据传输也遇到了问题,所以架构上各方面还要调整,比如说采用一些分布式的架构。”中国互联网投资基金管理公司总经理李筱强说。

  我们可以把芯片设计类比为在一个固定面积的土地做城市规划:如何在有限土地上组织街区之间的大路,和一户户房屋之间的小路,决定了这个城市的最终运输效率。

  而根据多个芯片设计从业者的分析,从壁仞公开的架构设计来看,它用了大量的创新来提高这个运输网络的效率。比如建设距离街区更近的停车场,并且用一种技术让这些停车场可以连通起来当作一个大停车场来调配;比如在它的两个城市之间建设足够快速的公路,从而让两个城市在人们的感受上也看起来像是同一个城市——BR 100 使用了 Chiplet 封装,但两个芯粒可以被软件识别为同一个 GPU 来运转。

  当然,同时也会牺牲一些其他的性能作为代价,比如计算的精度,以及高负载下的传输瓶颈。以及,在实现 Chiplet 的环节,对由芯片制造厂掌握的新技术的依赖,也带来不小的不确定性。

  不过,前述硅谷芯片人士认为,壁仞能带着 BR100 上 HotChips34 去分享,就是因为它的设计思路里,有些地方的确是近几年 GPU 行业少见的尝试——哪怕不是完全新的东西,但英伟达这些年垄断不只是市场,也让其他公司对技术路线的野心少了许多,因为试错的代价高昂。

  据壁仞内部人士称,在 2019 年成立之初壁仞设定了自己的GPU设计出来后的算力必须达到英伟达当时产品的 10 倍。而 2019 年,英伟达处在过渡到安培架构的过程,但当今年 BR100 推出时,英伟达最新的产品已经是 Hooper 架构下的 H100。不过测试数据显示,在矩阵乘法的吞吐量上,BR100 的确与 H100 不相上下。

  在 GPU 领域,最接近“工业标准认定”的较权威评测,是 MLPerf 的比赛。它由多个行业重要公司一同发起,简单来说,就是通过让各家产品来跑最主流的模型来考察它们的算力。壁仞在 HotChips 上分享之后,9 月第一次参加 MLPerf,用 BR100 的“小弟”BR104 芯片拿下两个全球第一,分别是一个主流的自然语言理解模型和图像分类模型。

  某种程度上,壁仞在今年就是全球华人芯片从业者最关注的焦点公司:一次采访中,壁仞科技CTO兼首席架构师洪洲也曾形容 “从 90 年代开始的 20 多年内成长起来的(华人)架构师,基本上都在我们这边。”

  “壁仞的节奏感很好,从发布到参加 HotChips 再到 MLPerf,和目前定的量产节点,都是按整个芯片行业的最专业的标准在做。如果最终可以在年底按计划量产,那这种把控力还是挺难的。”上述硅谷人士称。

  “天天背着包到处跑客户”

  芯片设计上有了突破,接下来的难题是芯片制造环节。

  有分析指出,美国商务部的最新限制,事实上是“假定拒绝”原则,据财新梳理,“运算速度达到 4800TOPS (每秒 1 万亿次传输)、传输力达到 600GB/s(每秒 1G 比特传输速率)的高性能计算芯片,都将被严格限制。”而根据壁仞在 HotChips 的 PPT 介绍,其芯粒间传输速度达到 896GB/s。

  芯片制造厂商如台积电,一方面忌惮于美国的长臂新规,另一方面,它们也急迫需要更多样的芯片设计客户,来减少对英伟达等主要客户的依赖。这就使得其中有许多可以努力争取的空间。

  在美国商务部的限制出台后,传出台积电将暂停为壁仞流片的消息。据知情人士称,壁仞的确在相关超过限制标准的芯片上开始主动做调整,寻找可以按计划继续出片的方案。

  而被问到现在的影响,另外两家主要国产 GPU 创业公司透露,目前还没有受到直接影响,但也在从订单和客户角度去研究调整订单量和库存计划。

  一位依靠台积电 7 纳米制程进行量产的芯片公司高管则答到:“现在片上确实有更大可能出问题,但可以肯定地说,我们以及同行都没人想退让。”

  “我们这些人其实骨子里都挺骄傲的,这事我们想做成,想见证中国芯片的高光时刻”,该芯片公司高管说。

  困难很大,但方法也有。在今天的国产芯片创业热潮中,一个最大的特点,是这些核心人才普遍拥有真刀真枪的流片与抢占市场的经验,他们更清楚从真正的市场需求来倒逼制造厂商有多重要,也有丰富的经验。

  “快手有 3.5 亿的平台,每天 3000 多万视频的大数据,我不缺数据,也有人做算法,我只做热门视频,热门视频还要分层、还要分优先级,为什么?我算力不够。”快手一名视频算法团队技术负责人说。“我们测了瀚博 VA1 的卡,作为算法开发人员,说实话从算法的效果和加速程度以及功耗上,是胜过通用 GPU 的。”

  这种来自最终用户的认可最为关键。“我自己一定会说自己的产品好,但是我们的客户来说我们的产品好,那我们的产品应该是真的好。”钱军说。

  这些芯片创业公司的进展速度有时候超过了外界对他们形成印象的速度,在不少人依然用PPT公司来形容他们时,这些公司已经建立起完备的公司体系,而产品已经实打实进入一些重要客户的机房。这些真实的需求让制造厂商真切感到它们给出的订单是可持续的。

  “互联网客户的导入是非常严格的。快手的机房里面,它每天 7 天 24 小时都在跑高密度的,如果不散热的话,温度你是受不了的。所以在这种强度下再跑你的芯片,如果你的芯片,软件出问题,稳定性不行的话,其实是很难做,所以进互联网数据中心,这是一个很大的护城河。如果说你能够迈进互联网,那么不管你是什么样的卡,说明方方面面从性能、视频质量甚至迁移成本,都是完胜。”

  事实上,这些初创的公司,从第一天开始就花费着巨大的努力来拓展客户,走着一条 app driven 的路线。

  据品玩了解,瀚博在组织架构上分为 IP 部门(自研和三方 IP 维护),DV 部门(负责各种 IP 验证等工作),SOC 部门(芯片从前端到后端的全流程实现),PVP 部门(用市场需求指导产品),软件部门和解决方案部门(验证各种算法以及云端部署需求)等。

  其中,随着更多的产品线出现,瀚博的IP 部门开始使用中台的概念。很多可以互用的核心技术 IP,做统一开发,内部要求这些技术 IP 在GPUAI产品里都得可以工作。

  这样的架构有足够的灵活度,也处处体现出结合市场需求来指导研发的思路。

  而壁仞的组织架构同样围绕产品的市场需求来设计。“直接触到用户和市场需求的部门地位很高,甚至是大部分业务项目的出发点。”一名壁仞员工说。

  与芯片设计环节性能对标英伟达一样,在市场拓展时,他们的对手依然是这个美国巨头。

被美国禁止出售给中国的英伟达高端 GPU Nvidia A100 ,图源:英伟达

被美国禁止出售给中国的英伟达高端 GPU Nvidia A100 ,图源:英伟达

  一名大厂的芯片对接负责人对国产创业公司的努力印象深刻。“英伟达对我们其实是很不 care,需求要谈很久,因为我们带来的本来也是增量。他们从来没有和我们多么密切的合作过。”

  “而和这家国产公司对接,他们的人来到我们办公室,早上谈了大致需求,然后我们就去工作了,他们的人留在会议室就开始鼓捣。”

  后来当天晚上,他们居然就跑通了这个模型。多个芯片公司管理层形容,自己公司的销售“天天背着包到处去客户的机房里适配,很拼。”

  “关键就是一定要有突破口。有了突破口,就一定会有好的客户愿意跟你交流。“钱军说。“我们有一些场景,世界上没有任何另外一个芯片能够支持,他要做这个东西只能找我,这个是一个敲门砖,剩下的就是怎么样把你的软件这些东西做得更易用。”

  这些努力和市场份额的变化,都在向上传导到制造端。

  “之前芯片法案出来后我们也在评估,但其实这些年都有一样的挑战。”一家在使用台积电 7 纳米工艺代工的公司员工称,而根据瑞银证券的报告,台积电 7 纳米制程明年上半年产能利用率“恐只剩七成”。

  “芯片是个非常需要营收来反哺开发的产业。”前述 CEO 称,“所以台积电的态度也在不停变化,大客户砍单,空出来的产能,我们接触中明显感到他们也很着急。”

  击碎投降主义的非议

  和巨大的机会与人才井喷一同到来的,是前所未有的关注。而它们并非都是带着善意。

  在国产厂商越来越多的发布会上,展示的 PPT 里少不了和“主流产品”的对比,哪怕没有标出,所有人都知道那“主流厂商”指的就是英伟达。但在很多围观者的眼里,喊出挑战英伟达的那一刻,国产厂商们就有了原罪。

  于是,在国产 GPU 行业最需要各种鼓舞人心的进步的同时,中国初创厂商们如何表达取得的成绩,却成了一个大问题。其中频繁出现的一种批评更是直击心灵——

  你也配叫做 GPU。

  “如果你关注 GPU 相关的讨论,会发现许多爱好者们总是喜欢争论一款产品到底算不算 GPU。而并不关心实现的计算需求本身。”前述 CEO 表示。“他们比任何地方的从业者都更喜欢讨论一个架构是否是 GPU 架构,并以此定义一个产品是否够先进。”

  这些看似对架构和技术的讨论,背后是对英伟达塑造的叙事以及行业现状的膜拜,让他们瞧不上国产替代芯片厂商们的研究和产品的一个重要原因,是 GPU 代表的“通用性”——英伟达可以适配最多的模型,它才是真正的通用。

  但事实上,这些人所标榜的英伟达“生态”,是一个前所未有封闭的系统。

  英伟达之所以通用最强,其实除了他不停更新的 GPU 架构带来的帮助外,更多是因为 CUDA 的适配。

  CUDA 全称 compute unified device architecture,是英伟达提供的软件平台。它在 2007 年就已推出,有报道称,初期这个软件平台每年就需要英伟达投入 5 亿美元,而当时英伟达的营收还只是在 30 亿美元规模,至今 CUDA 的总投入早已超过 100 亿美元。今天它是所有 GPU 软件开发和适配的“垄断”平台,开发者人数在以数百万规模不停翻倍增长。

  “英伟达是他自己定义了一套东西,他不开源。里面有什么东西都不告诉你,基本上是垄断的情况。那他自己做得好,别人没法玩。”钱军说。

  “你得去猜,然后你猜的不对,你的性能就掉了一大堆,所以你要做 CUDA 适配,其实理论上是不可能,而且它是完全闭环。”

  “很多算法甚至连最初开发时候也是在 CUDA 里做出来的,这是巨大的优势。”一名算法工程师说。而在 GPU 进入更快的迭代阶段后,在架构被挑战后,英伟达甚至也可以通过按照自己的新架构特点来改动 CUDA 库的方式,协同实现性能提升。“这就好比路和车,她可以把路改的更适合它的车。而你只能改车。辛辛苦苦改完车,发现路又变了。”

  “我们的团队里其实更多的是软件开发人员,但加班加点开发,几年也只适配了一些主要的模型。跟 CUDA 能提供的库没法比。这就是事实。”一名壁仞员工说。

  也就是说,用英伟达投入了巨额金钱获得的封闭的通用性,去衡量这些新创公司“通用”与否,本身就是个一厢情愿的比较标准。

  不过,与那些巴不得国产厂商趁早“投降”的人们不同,越来越多真正扎根在产业里的中国创业者已经开始有策略的走出这个阴影。

  一方面,他们深知现阶段必须要从英伟达建立起的体系里找到突破口:

  “作为一个要杀入这个场景的公司,肯定不能说我自己定一套规则。如果那样,你连卡都插不进去现在客户的服务器,人家怎么跟你弄,你怎么证明你比它强。”钱军说。

  “事实上,现在所谓的框架已经没有大的颠覆,反而更多是融合与微创新。”一家使用 GPU 做图像生成业务的创业公司的对品玩表示,在英伟达最新的 Hopper 架构里,在计算光线和物体的关系时加入了一个新的引擎,而他们在研发底层框架时也用了类似的技术思路。他认为,事实证明这样的迭代已经都可以做到,差别在于怎么定义这种小引擎的重要性。

  而另一方面,这些年轻公司已经开始摆脱对英伟达的迷信——通用重要,但更要知道对于自己来说真正重要的技术路线是什么,而不是陷入英伟达的议程里。

  “GPU 的图形管线对我们来说只是计算机处理的一个维度。”钱军说。“GPU 整个的渲染的产品线,和核心的研发其实一直在我们的计划当中,只不过我们一贯不会对外过多的宣传。”

  他表示,瀚博发布的统一计算架构(Vastai Unified Compute Architecture)软件平台,目的就是要让之后可以有更多的硬件加速核融入进这个框架里。“所以以后不要吃惊,我们还会有另外的一些加速核加到我们这样子的一个产品线里面。”

  在那些拥趸眼里无敌的英伟达,在这些真正日以继夜做着国产替代实践的人们眼中,也不是无懈可击。“相信我,再好的软件工程师他也会犯错,再好的软件团队也会犯错。所以这个地方一定是一个循序渐进,不断地把生态做出来的过程。”

  这些策略也在被一点点增加的市场份额印证着,更多的国产芯片进入各家的数据中心,也击碎着更多的流言蜚语。

  “没有客户会在选择一款芯片产品时候先讨论一番它配不配叫 GPU。”一名壁仞的员工表示。最能决定订单的,就还是 TCO(总体拥有成本)——一个新产品究竟能帮客户省几个亿,省多少工程师和他们的投入的时间,都是可以计算的东西。

  而多位国产 GPU 厂商的高管和负责人也表达了一个相同的观点:未来中国 GPU 厂商们建立的生态,必须是一个开放的生态。“我希望这个规则是公平的、开放的,然后让更多的人来竞争。国内需要有领袖级的公司出来做这个事情。”

</p><p>  

  明年是英伟达成立的第 30 年。在 1993 年,黄仁勋、克里斯·马拉科夫斯基和卡蒂斯·普里刚刚创办了一家游戏显卡公司,没人想过它后来会变成今天的英伟达。“当时我们没有任何市场机会,但我们看到一股浪潮即将到来。”马拉科夫斯基回忆称,“在加州海滩有一个冲浪比赛,它的举办窗口只有 5 个月。当日本的海边出现某种浪潮时,他们会告诉所有的冲浪者到加州来,因为两天后浪潮就会来到这里。这就是我们当时的情况。”

  今天的人工智能又进入了一个新的激变时期,下一波浪潮眼看也要到来,它很可能比黄仁勋们在加州海边苦苦等待的来的更明显和汹涌,而这一次,中国创业者有机会离海更近。