HBM之父金正浩:AI的本质是内存,GPU真正工作的时间只有10%

  被称为"HBM 之父"的韩国科学技术院(KAIST)金正浩教授抛出一个颠覆认知的判断:AI 的本质是内存,而不是 GPU。

  近日,韩国科学技术院(KAIST)电气工程系教授金正浩接受视频专访,围绕 HBM 技术演进、AI 算力格局和未来半导体架构作出系统性阐述。金正浩被业界称为"HBM 之父",早在 2010 年代初期便与 SK 海力士合作参与 HBM1 开发,此后主导了一系列底层架构研究。此次访谈内容在科技与投资圈广泛流传,核心观点直指当前 AI 算力竞赛的结构性矛盾。

  金正浩在访谈中直接给出了一个令人震动的数字:

  "GPU 装 100 万台,真正工作的时间只有 10%。"

  他解释,每当 ChatGPT 输出一个词,系统就需要从 HBM 中读取数据、完成计算、再写回内存,"读和写几乎占掉了全部时间,GPU 就在旁边干等着。"即便通过算法优化,GPU 利用率也很难突破 30%。

  这正是他多年坚持的核心论断的现实依据:"AI 等于内存(AI = Memory)。"

  一、为什么 GPU 遇到了"外通死局"

  金正浩对英伟达(NVIDIA)现状的判断措辞犀利。他说,黄仁勋近期频繁访问韩国、参加综艺、吃炸鸡喝啤酒、会见各路人士,"这么多会面背后,说明他不安心"。

  "GPU 的技术性成长已经快停了,这是我的判断。人工智能计算机的进化,掌握在内存手里。"

  他的逻辑链条清晰:GPU 想提升性能,只能扩大芯片面积、堆更多计算单元;但 GPU 太热,必须在背面安装散热装置,因此无法像内存一样垂直堆叠。"GPU 陷入了外通死局(外通手에 걸린 느낌)。"

  相比之下,从训练时代转向推理时代,内存的重要性正在被重新定价。金正浩说:"推理时代,更重要的是往 AI 里塞进多少数据,而决定这一点的半导体是内存。"

  他进一步指出,AI 能力的竞争最终是内存能力的竞争:"谷歌 Gemini、OpenAI、Anthropic Claude,谁更强,是由内存决定的——这是我的主张。"

  二、HBM 的两大核心:容量与带宽

  金正浩将 HBM 的价值归结为两个维度。

  第一是容量。随着上下文工程(context engineering)、多模态输入和 Agentic AI 的到来,内存需求以每年翻倍的速度增长,"10 年就是 1000 倍"。传统方式靠缩小晶体管来增容,但如今已逼近量子力学边界,几乎无法继续缩小,因此必须"向上堆叠"。

  第二是带宽。金正浩打了个比方:"传统内存如果是 8 车道高速公路,HBM 是 1024 车道,现在是 2048 车道,几年后可能达到 100 万车道。" 靠并行通道同时传输海量数据,才能匹配 AI 计算的速度需求。

  三、HBF:NAND 闪存的堆叠时代

  HBM 解决了速度问题,但容量依然有天花板。金正浩在访谈中详细阐述了他认为的下一条技术路线——HBF(High Bandwidth Flash)。

  简单说,HBF 就是把 NAND 闪存像 HBM 一样垂直堆叠。DRAM 速度快但容量有限,NAND 闪存容量大、可长期保存数据,速度虽然慢一些,但在推理场景中足够满足"冷数据"的存储需求。

  金正浩认为,未来 HBM 和 HBF 将形成共存格局,类似于城市规划:"就像有百货商场,周围有复式公寓、普通住宅,各种形态的 HBM、HBF 组合在一起,形成复合体,向 GPU 供给数据。"

  他作出了一个明确的长期预判:"现在是 HBM 的时代,但 10 年后,NAND 闪存和 HBF 的市场需求将超过 HBM。三星和 SK 海力士必须为 HBF 时代做好准备。"

  他指出,目前正在开发 HBF 的公司包括 SK 海力士、闪迪、三星电子,以及日本的铠侠(Kioxia)。铠侠市值最近超过了丰田汽车,成为日本股市第一,闪迪股价持续上涨,而三星和 SK 海力士则在韩国市场维持市值领先地位。

  四、HBS:更超前的第三条路

  金正浩还提出了一个目前仍属于前沿概念的设想——HBS(High Bandwidth SRAM)。

  SRAM(静态随机存储器)比 DRAM 快约 1000 倍,但密度低、成本高,传统上只能作为芯片内的小容量缓存。金正浩的思路是:把整张 12 英寸晶圆全部做成 SRAM,再垂直堆叠 12 至 16 层,就能将容量从 100GB 扩展到 1600GB。

  "这样速度快 1000 倍,容量又足够,那就说得通了。"

  他描述的终极 AI 芯片形态是一栋"100 层 3D 大楼":"HBM、HBF、HBS 各自构成多层建筑,GPU 放在顶层负责散热冷却,这就是未来 AI 计算机不可避免的 3D 半导体结构——这是我现在的判断。"

  他同时坦言,这条路最大的工程挑战不是计算,而是供电与散热:"要给 GPU 和堆叠内存供几千安培的电,电力供应网络的设计将是最难的技术,这也将成为企业间真正的核心竞争力。"

  五、定制 HBM:甲乙关系正在逆转

  金正浩专门谈到了 HBM4 带来的供需结构变化。

  过去,内存是标准化产品,厂商先生产、客户再选购,买家主导价格,库存风险由内存厂商承担,这就是"内存周期"的本质。

  但从 HBM4 开始,由于需要根据英伟达、谷歌、AMD 等客户的加速器架构量身设计(即"定制 HBM"),内存厂商必须在研发之初就拿到客户的数量承诺,才会启动开发——也就是所谓的"长期协议(Long-term Agreement)"。

  "AI 企业太需要高性能 HBM 了,所以他们排队来。供应方开始决定价格,这是范式的转变。"

  他还预期,未来 HBM 芯片内将集成通信功能,实现"HBM 之间相互通话",形成类似联盟的结构:"我们自己沟通,谁对我们更好,就给谁更多内存;不听话的 GPU,就不分配。"

  这进一步抬升了内存厂商的系统性地位。

  六、三星、海力士是唯一能同时做两件事的公司

  金正浩在访谈中反复强调,全球范围内能同时量产 DRAM(HBM)和 NAND 闪存(HBF)的公司,目前只有三星电子和 SK 海力士。

  "闪迪和铠侠虽然股价冲天,但只能做 HBF,做不了 HBM。三星和 SK 海力士拥有引领未来最强大的工具。"

  当被问及三星与 SK 海力士今年合计营业利润 500 万亿至 600 万亿韩元的预测是否现实,金正浩回答:"现实的。" 他补充说,他经常与两家公司的高管进行技术交流,"他们的眼神越来越亮了。"

  不过他也指出竞争压力真实存在,美光、闪迪获得来自英伟达和谷歌的订单分流。

  七、AI PC 与 AI 手机:内存决定设备价格

  金正浩还将内存需求的叙事延伸至终端设备。

  他预测,未来 AI PC 要真正实现个人 AI 计算,所需内存规模将使"一台 PC 的价格达到 1000 万韩元,内存价格决定 PC 价格"。而 AI 智能手机售价 300 万至 500 万韩元中,200 万至 300 万韩元将是内存的价格。

  "AI 基础设施、AI 模型的持续进化,需要越来越多的内存。AI PC 和 AI 手机,是这个趋势的另一条主线。"

  八、Agentic AI 与物理 AI:内存需求还将暴增 1000 倍

  金正浩对 AI 演进方向的判断同样值得关注。他认为,随着 Agentic AI(智能体 AI)和 Physical AI(具身 AI/物理 AI)的到来,内存使用量将比现在高出约 1000 倍。

  "AI 代理 24 小时工作,不像人类还要睡觉,工作量暴增,内存需求自然跟着爆炸。那时候不是 HBM,而是需要'超级 HBM'的时代了。"

  九、研究之路:50 年积累,"运气"说

  金正浩在访谈结尾追溯了自己的学术路径。他 1993 年获得博士学位,研究方向是飞秒(femtosecond)级超快电信号测量,导师数年前获得诺贝尔物理学奖。1994 年他加入三星电子内存事业部,1996 年回到 KAIST,此后持续深耕内存与 HBM 基础研究约 10 年,才形成商业产品。

  2015 年,他在一次校内会议上第一次听到"深度学习"这个词,随即意识到 AI 算法与 HBM 架构背后用的是同一套数学——线性代数和矩阵运算。"我在大学二年级特别喜欢矩阵,两边恰好用的是一样的数学——这就是运气。"

  他笑言,当初做 HBM 时想的是用在电视机上让画面更生动,完全没想到会成为 AI 时代的基础设施:"那时候不知道,这也可以说是运气。"

  以下为访谈文字实录有删减(由 AI 协助翻译)

  金正浩: HBM、HBF、HBS 将组成一栋百层大楼,GPU 则位于最顶层,进行散热等。我认为,这种 3D 半导体结构是未来 AI 计算机不可避免的架构。而其中最困难的技术之一,就是供电。需要供应数千安培的电流,因此电力供应网络的设计将是最困难的。这将成为核心技术竞争力。

  主持人: 被称为“HBM 之父”的 KAIST 金正浩教授来到了我们的节目。您好!

  金正浩: 您好,很高兴见到您。感谢您的邀请。

  主持人: 谢谢您抽出时间。

  金正浩: 不客气。(笑声)

  主持人: 我们得先从 HBM 聊起。实际上,HBM 真正开始量产和应用,也不过大概两年的时间,对吧?HBM3 是这样。HBM1 的话,从 2010 年代开始,我就和 SK 海力士一起参与了,当时 GPU 方面有 NVIDIA 和 AMD。所以 HBM1 是在 2010 年代初期开始的,但那时它是用于显卡的。

  主持人: 教授您获得博士学位是在 1990 年代,对吧?

  金正浩: 是的。

  主持人: 但您在 2010 年 HBM 最初被开发出来时,就早早地开始了相关研究。

  金正浩: 是的。我在 1993 年获得博士学位,当时的研究更偏向物理学。我制造了当时世界上最快的、用激光来测量电信号的示波器。我的导师几年前获得了诺贝尔物理学奖。当时我制造的设备可以观测到飞秒(几乎静止的光)级别的极端时间现象。如今随着 AI 的发展,需要处理海量数据,数字电路的运行速度已经达到了皮秒甚至飞秒级别。所以 30 年前博士期间的研究现在都派上了用场。

  不过,当时研究的领域非常狭窄和深入,而我的性格更倾向于与社会交流和沟通。所以当时我就想,未来内存会变得很重要。抱着这个想法,我在 1994 年加入了三星电子的内存事业部。从那时起,我就一直在学习和研究内存。1996 年我来到 KAIST,大约到 2010 年,HBM 前期的基础研究持续进行了大约 10 年,然后才作为产品应用到了 HBM 上。

  HBM 所需的各种技术,如量子力学、半导体物理、数学等,其实都是大学二、三年级时学过的科目。特别是需要大量的线性代数知识,那是我在 1981 年学习的,能一直应用到现在。HBM 不断推陈出新,我们实验室甚至提出了到 HBM8 为止、为期 30 年的路线图。这么算下来,从最初研究到现在,差不多有 50 年了。

  主持人: 您在最初研究和思考 HBM 概念时,就预料到人工智能时代会到来,并且 HBM 会成为其核心吗?

  金正浩: 没有,当时 AMD 和 NVIDIA 是打算把它用在显卡上。显卡所需的数学和人工智能所需的数学是一样的。所以 HBM 后来成了 AI 的核心部件,但最初 NVIDIA 方面认为它只是用在显卡上。而我当时想,韩国电视产业很发达,所以想把这种芯片放进电视里,让电视画面更华丽、更生动、更逼真,因此我最初是考虑用在电视上的。

  大约 2015 年,在大学里和一些年轻教授开会时,他们用到了“深度学习”这个词,那是 AI 的早期阶段。当时我只是觉得“哦,还有这种技术啊”,半开玩笑地聊着,只有我没听懂。所以从那时起,大概 2015 年,我实际上就把专业方向转向了 AI。虽然表面上是研究 HBM 的实验室,但我个人从 2015 年开始完全转向了 AI 研究。研究几年后发现,AI 算法和 HBM 简直是天作之合。我当时就觉得,这会在 AI 领域得到爆发式应用。

  那时候主要用在 CNN(摄像头物体识别)上,稍后是强化学习(比如下围棋),这些应用都需要大量矩阵运算,所以需要 HBM。但像现在这样彻底爆发,大概是在 2020 年代初 ChatGPT 出现的时候。未来 AI 将向 Agentic AI 发展,一部分也会走向 Physical AI。从算法上看,Agentic AI 或 Physical AI 的内存使用量可能会比现在增加 1000 倍。那样的话,就需要 HBM 的升级版“Ultra HBM”的时代了。所以我们也有一些其他的想法。总之,一开始我并不知道会这样,可以说是一种运气。因为我大学二年级时就非常喜欢线性代数,而两者用的数学是相同的。

  主持人: 我理解 HBM 就是将多个 DRAM 堆叠起来,我的理解正确吗?

  金正浩: 是的,正确。无论是显卡还是 AI,在进行计算时,都需要快速从内存中读取数据。HBM 之所以必要,有两个原因。第一是容量要大。特别是 AI 正在向上下文工程、多模态、Physical AI 发展,需要在内存中累积的数据量越来越大。可能每年翻一番,十年就是 1000 倍。要增加内存容量,就需要不断缩小晶体管或存储单元,但由于单元间的干扰和漏电现象,我们已经接近了量子力学的极限,难以再缩小。所以容量很难增加。

  因此我在 2000 年代初就认为,未来的内存必须堆叠起来。从那时起,我们就主张“堆叠”而非“平面”。当时大多数人都设计单层半导体,而我们的设计方向是堆叠。当然我们侧重设计,三星和 SK 海力士负责具体实现,但最终产品化的结果就是 HBM。第二个原因是,即使容量大,也必须能快速将数据传输给 GPU。这样才能快速响应我们,处理文档、文字,甚至最近需要制作电影。要提高速度,需要并行传输数据的技术。就像高速公路从 8 车道变成了 1024 车道,最近是 2048 车道,几年后可能变成百万车道。

  所以 HBM 的核心是:通过堆叠增加容量,同时通过安装“电梯”和“高速公路”结构,以光速(比传统内存快千倍、百万倍)传输数据,这就是所谓的并行结构。

  主持人: 提到 HBM,也常听到 HBF。HBF 是什么,和 HBM 有何不同?

  金正浩: 通用内存主要有两种:DRAM 和 NAND Flash。DRAM 速度快但无法长期存储;而 NAND Flash 容量大(大约是 DRAM 的 10 倍),速度慢一些,但能长期保存,主要用于相机等设备。但刚才提到的 HBM 虽然堆叠了,容量仍然不足。最近因为上下文工程,向 AI 输入时不仅用文本,还附带参考文件、YouTube 视频等,视频图像文件暴增,内存容量需求比现在更大。计算过程中的中间结果(KV Cache)也需要全部存储。

  进入 Agentic AI 时代,我可能会雇佣 10 个或 100 个 AI 替我工作,AI 的工作量是我的 100 倍,而且它们 24 小时工作,不像我们会睡觉休息,所以工作量剧增,内存需求也随之增加。即便堆叠了 DRAM,容量还是不够,所以想到了堆叠 NAND Flash,这就是 HBF。目前开发 HBF 的公司有 SK 海力士、Sandisk、三星电子,日本的 Kioxia 可能也在开发。最近 Kioxia 的市值甚至超过了丰田,成为日本股市第一。美国制造 NAND Flash 或 HBF 的 Micron 和 Sandisk 股价也持续上涨,韩国制造这些的三星和 SK 海力士市值排名前列。

  紧挨着 GPU 的内存有两种:HBM 和 HBF,也叫“热内存”;而用于长期记录 AI 关于用户信息的设备叫“冷内存”,两者需求都在增长。长远来看,大约 10 年后,NAND Flash 和 HBF 的市场需求增长可能会超过 HBM。所以现在虽然是 HBM 时代,但三星、SK 海力士也要为 HBF 时代做好准备,这是我的主张。

  主持人: 您曾提到 2038 年左右 HBM 可能会发展到第八代。

  金正浩: 是的。

  主持人: 那时 HBM 和 HBF 都将进入商业化阶段,两者是互补关系,还是竞争关系?

  金正浩: 两者是互补的。HBM4 今年推出,几年后 HBM5 会出来,大约每三年换一代,10 年后会到 HBM8。那时 HBM 和 HBF 将一起使用。HBM 容量虽小但速度快,HBF 速度稍慢,也有一些物理局限性,但容量巨大。如果 HBM 容量不够,旁边会配上 HBF,两者并非单一存在,而是类似公寓楼群:中心有百货商店(HBM),周围有公寓楼群(HBF)。各种形态的 HBM 和 HBF 会组成一个综合体,相互连接,为用户提供数据。总容量方面,HBF 可能比 HBM 更大。

  主持人: 归根结底,就是堆叠 DRAM 还是 NAND Flash 的区别,两者缺一不可。

  金正浩: 是的,全球能同时做这两种的公司只有三星电子和 SK 海力士。Sandisk 和 Kioxia 虽然股价飙升,但它们只能做 HBF(或堆叠 NAND 的 ESSD 技术),无法做 HBM。所以我认为三星电子和 SK 海力士拥有引领未来的最强大工具。

  主持人: 那么可以说三星电子和 SK 海力士拥有绝对的领先优势吗?

  金正浩: 可以这么说。今天早上的股价不就突破 9000 了吗?虽然预测股价不是我的领域,但从根本趋势看,世界正走向 AI 霸权时代,而 AI 的能力,我认为是由内存能力决定的。直到去年,我还以为 AI 能力源自数学(比如注意力机制),但要实现它离不开内存。最终,内存的性能就是 AI 的性能。所以我定义“AI = 内存”。AI 企业、AI 国家,或者用半导体建设数据中心,都必须依靠内存公司。这是格局转变的时代。

  更惊人的是,HBM 和 HBF 用于建设 AI 数据中心,现在也叫“AI 工厂”——制造 AI 的工厂。我称之为“内存工厂”,AI 工厂的核心是内存,拥有多少内存决定了 AI 国家霸权和 AI 企业的竞争力。谷歌、Gemini、OpenAI、Anthropic Claude 谁更好?我的主张是,这由内存决定。

  最近为了保护个人信息,出现了在自己的电脑上直接计算 AI 的动向,这叫 AIPC。NVIDIA 也想做这个,和台积电合作制造 PC,里面装有 128GB 的 LPDDR 之类,内存非常大。要真正做好可能需要 TB 级内存,那 PC 价格就得 1000 万韩元,内存价格决定了 PC 价格。未来智能手机也会变成 AI 智能手机,屏幕上可能只留一个窗口,其他都由 AI 代劳,甚至会出现 AI 眼镜。我主张一台 AI 手机价格的一半以上会是内存价格,比如 300 万、500 万韩元的手机,其中 200 万、300 万是内存成本。AI 基础设施和 AI 模型越发展,内存需求越大,而 AI PC 和 AI 手机是另一大增长轴。

  主持人: 当前全球科技巨头中,NVIDIA 展现压倒性性能,它保持最强地位的最大秘诀是什么?

  金正浩: 直到去年,AI 的“学习”(训练)更为重要,学习能力就是 AI 能力。在学习中,Transformer 模型的编码器部分主要进行反向传播计算,涉及微分,能做好这个的是 GPU。所以训练时代是 GPU 的时代,因为做 AI 必须有 GPU,所以大家抢着高价购买。但从去年夏天开始,“推理”变得更重要。仅靠训练无法克服“幻觉”问题,给出荒谬错误答案就无法使用。要实现个人化 AI,推理变得重要,而对推理更重要的半导体是内存。所以进入推理时代,内存会比 GPU 更贵、需求量更大。

  另一个原因是,要提高 GPU 性能,必须增大 GPU 面积(放入更多计算器)。一种方法是像 Cerebras 公司那样,让整个 12 英寸晶圆成为一个 GPU。但这样制造难度大,一个缺陷就要扔掉整个晶圆,不经济,用途受限。但即便如此,Cerebras 也离不开 HBM 和 HBF,没有内存,在推理时代就会很弱。那么 NVIDIA 能否堆叠 GPU 呢?不能,因为太热了,后面得装冷却器,无法堆叠。所以 GPU 有些被困住了的感觉。最近黄仁勋坐立不安,来韩国上电视、扔棒球、吃炸鸡喝啤酒、见很多人,说明他并不安逸。其中一个原因就是,我认为 GPU 的技术成长几乎停滞了。相反,AI 计算机的成长和进化取决于内存。

  主持人: 有说法是,实际运行的 GPU 只有 10%?

  金正浩: 是的。即使安装了 100 万个 GPU,实际工作时间可能只有 20%,甚至 10%。为什么?因为 GPU 需要从内存获取数据才能计算并返回结果,但数据从内存(HBM/HBF)传输不过来。当 ChatGPT 快速吐出单词时,每个瞬间都需要从 HBM/HBF 读取数据、计算、再写入,几乎全部时间都花在读写上,GPU 在等待。所以关键在于能否快速读取、读取多少,这就是需要 HBM 和 HBF 的原因。无论如何改进算法,GPU 实际工作可能最多只有 30%,其余时间在空转。

  主持人: 所以教授您主张,未来 HBM 或 HBF 内部会集成 GPU 功能,开启新时代?

  金正浩: 是的。既然 HBM/HBF 的数据让 GPU 在等待,那不如我们自己计算。就好比在公寓一楼安装 GPU,数据坐电梯下来计算,整栋楼里解决所有事,不用去别的地方,省去了奔波时间。所以主张在 HBM 里放入 CPU/GPU 功能,甚至让 GPU“靠边站”。当然不能让 GPU 完全没事做,要适当分工,让它“一直保持渴求状态”。这就是我所说的“Memory-Centric Computing”(以内存为中心的计算)。从 HBM4 开始,已经在朝这个方向做了。

  主持人: 即使 HBM/HBF 里集成了 GPU 功能,因为没有堆叠多个 GPU,散热问题应该不存在吧?

  金正浩: 还是会有一点散热问题。所以从 HBM4 开始,SK 海力士和三星制造的产品性能可能会有差异,这和散热有关——能否有效排出热量。因为在一楼(内存层)集成了部分 GPU 功能,那里太热,内存就像坐在“暖炕”上,性能会下降,必须给暖炕降温。谁能更好地冷却,将决定 HBM4 及以后产品的性能差异,GPU 也是如此。所以我们实验室的想法是,既然一层太热,不如把部分功能移到“屋顶”(顶层),在上面加装冷却塔,从顶部直接冷却。这是我们的核心架构之一,目前在 HBM5 相关研究中,硕博士们正在进行这项研究,希望能大获成功。

  我们发表这些论文后,NVIDIA、AMD、三星、海力士都会看到,起初可能排斥,但发现没有别的办法,最终会采纳。

  主持人: 如果教授所说的 HBM/HBF 内部集成 GPU 的未来到来,甚至以后集成 CPU,那三星电子和 SK 海力士应该会发展得更好吧?

  金正浩: 是的,机会正在到来。“发展得更好”意味着掌握更多主导权,甚至可能超越 NVIDIA。但要实现这一点,需要技术开发、投资、人才培养,以及良好的政策判断和经营管理层的开放思维和正确判断。管理层的判断最重要。

  主持人: 教授主张“即将进入内存时代而非 GPU 时代”,这似乎已经开始了。另外,最近 GPU 势头很猛,但也出现了 NPU,NPU 是什么?

  金正浩: 都是处理器,用于矩阵计算,都用于 AI。GPU 原本是 GPGPU,TPU 里也包含 HBM,所以都离不开 HBM、离不开内存。Gemini 能写文章、处理语言模型、画画,功能多样;而有些芯片只擅长写文章,为特定目的简化,就是 NPU。也有人叫 LPU。它们都是 AI 所需的计算器,根据特殊用途做得更小、功耗更低、成本更低。国内有 Rebellions、FuriosaAI、HyperExcel 等公司,全球大约有十几家做 NPU 的,但无论 Rebellions 还是 FuriosaAI,为了高性能都必须使用 HBM。

  主持人: 最近 FuriosaAI 和 Rebellions 获得了国民成长基金的大规模投资,这是要让它们真正和 NVIDIA 一较高下。这两家公司真有全球竞争力吗?

  金正浩: 我当时是评审委员之一。这个决策有这样的考量:NVIDIA 无法掌控全世界所有领域,NPU、TPU 等肯定存在利基市场。比如沙特阿拉伯建数据中心,如果全部用美国产品,依赖度太高,所以可能将其中 10% 采用其他解决方案,韩国 NPU 企业可以成为候选。另外,韩国国内建设 AI 数据中心(可能需要百万台设备),如果 100% 都用 NVIDIA 芯片,我们对海外的依赖度太高,需要培育本土企业。所以决定投资以培育国内企业。总体概括就是这样。技术上也有其优点。

  主持人: 教授您最近的研究中提出了“高带宽 SRAM(HBS)”的概念?

  金正浩: 是的,这是我最近提出的新概念。像之前提到的,我提出概念,但要实现需要三星、SK 海力士等公司的大量努力。这些概念往往在 10 年、20 年后会产生重大影响。我提到过 Cerebras,有巨大的 GPU,美国也有叫 LPU 的芯片。它们为了自尊心或减少对 HBM 的依赖,在 GPU 内部集成了 SRAM 作为内存。SRAM 比 DRAM 快约 1000 倍,但容量小。我研究了一下,无论是 Cerebras 还是 LPU,都面临 SRAM 容量不足的问题。据我了解,整个 12 英寸晶圆做成的 Cerebras 芯片,SRAM 也只有 44GB,而我认为至少需要 400 到 440GB 才有意义。

  所以我的想法是:制造一个将整个 12 英寸晶圆铺满 SRAM 的芯片,然后再把它堆叠 10 层、12 层或 16 层。这样 100GB 就能变成 1600GB,容量惊人。然后在这个晶圆级 SRAM 堆叠体上再放置 GPU。速度是千倍之快,容量又足够,这主意听起来可行。所以我把这个晶圆级 SRAM 称为 HBS。我未来的梦想是:HBM、HBF、HBS 都变成 100 层高的大楼,GPU 放在最顶层,冷却系统等也集成在一起,这种 3D 半导体结构将不可避免地成为未来 AI 计算机的架构。

  这可能需要 10 年、20 年甚至 30 年。其中最困难的技术之一就是供电。在 HBS、HBM 上面堆叠 GPU,需要供应数千安培电流,电力供应网络设计将是最困难的,这将成为技术核心竞争力。SK海力士、三星、Micron、TSMC 都一样,其次是如何散热,这是实现过程中的障碍。目前人们关注 TSMC 和三星谁在几纳米工艺上做得好、良率如何,但未来,对于包含 HBS 在内的 3D AI 计算机,如何供电、如何冷却,将决定企业的生存。

  主持人: HBS 简直是内存半导体领域的“黄政民”(比喻大腕)。

  金正浩:是“黄政民”没错。我 10 年前就听说 Cerebras 用 12 英寸晶圆做 GPU,当时心想“什么?这能用在哪儿?”大概是国防 AI 吧。当时我还挺自大。但两周前,这家公司在纳斯达克 IPO 了,让我改变了想法。还是有用途的。既然 Cerebras 芯片最大的弱点是内存不足,那就把它也堆叠起来。有一天早上我有了这个想法,让学生画了图。最近开始谈论 HBF,等今年硕士新生入学,我打算让他们开始以 HBS 作为硕博士论文研究方向。

  主持人: 那 SRAM 由谁制造?

  金正浩: 由代工厂制造,TSMC 和三星电子都会做。

  主持人: 今年三星和 SK 海力士的合计营业利润据说在 500 到 600 万亿韩元之间,这是现实的目标还是过于乐观的展望?

  金正浩: 我认为是现实的。我经常与三星和海力士的高管进行技术会议,感觉他们的眼神越来越亮。虽然他们不和我谈具体的销售额。现在 HBM、HBF 的一个重要特点是“定制化 HBM”。以前是制造标准化产品,大量生产,客户买多买少,价格波动,这叫“周期”。内存厂商不主导,而是由 CPU 厂商、微软或电脑厂商决定购买数量,我们只能多生产一些观望,如果客户不买,库存压力就在我们身上,这就是“内存周期”。

  但从 HBM4 开始,不仅集成 GPU 功能,另一个重要功能是 HBM 之间可以相互通信。以前只做 GPU 指令的事,现在主张它们之间也要沟通。未来,HBM 之间可以竞争,把更多内存分配给表现更好的 HBM。也就是说,它们内部形成组合,不给表现差的 HBM 向 GPU 传递数据的机会。总之,随着这些算法、通信功能、GPU 功能的加入,每个公司(谷歌、AMD、NVIDIA)对 HBM 的设计要求都不同,这就是定制化 HBM。这样在开发初期就签订了长期供货协议(LTA),没有订单就不开始开发。

  现在 AI 企业极度需要高性能 HBM,所以排队求购,市场变成了卖方市场,供方定价。这是一种范式转变。

  主持人: 到现在为止,我们与 KAIST 金正浩教授就半导体生态进行了对话。感谢您今天的分享。

  金正浩: 谢谢。