万字拆解AI瓶颈:磷化铟紧缺已是“灾难”,下一个爆发点在“电网保卫战”

  AI 基础设施的军备竞赛正在将供应链压力从芯片本身向外蔓延,覆盖光学器件、电源半导体乃至数据中心外围的电网管理设备。在 HBM 短缺和算力扩张已被市场广泛定价之后,新一轮供应瓶颈正在更隐蔽的环节悄然成形。

  周六,AI 圈研究博主 Chris Barber 与知名匿名分析员@bubbleboi 讨论了 AI 供应链瓶颈与基础设施问题,系统梳理了 AI 供应链各层级的紧张程度,并点名了多个尚未被市场充分认识的潜在爆发点。

  在@bubbleboi 的排序中,磷化铟(indium phosphide)相关的激光与光学器件已是"完全的灾难",DRAM/HBM 短缺持续恶化,而电源半导体虽然目前尚不构成瓶颈,却是他最看好的"下一个爆发"方向——尤其是数据中心外围的固态变压器市场。

  磷化铟:当前供应链的“灾难级”瓶颈

  磷化铟是他措辞最为激烈的一个环节。"磷化铟的情况非常非常非常糟糕,"@bubbleboi 表示,"很多人还没意识到有多严重。"

  问题的根源在于 CPO(共封装光学)技术的推进对激光器提出了更高要求——更高功率意味着更大的芯片面积,更窄的线宽和更好的噪声性能同样推高了对磷化铟晶圆的需求。与此同时,磷化铟的加工链条——从矿石到晶体、再到外延片、最终到激光器印刷——每一个环节都处于严重供不应求的状态。

  这一短缺正在重塑光收发器市场的格局。

  传统上,每一代收发器(如 400G、800G)在初期以 EML(磷化铟单片集成调制器)为主,随后逐步向硅光子(SiPho)迁移以降低成本。但这一次,1.6T 收发器几乎从一开始就由硅光子主导——原因正是 EML 供应的严重短缺,以及制造商将产能向利润率更高的连续波(CW)激光器倾斜。

  DRAM 与 HBM:三家寡头全线爆满

  内存是@bubbleboi 排名第二的供应瓶颈。

  他的核心判断是:全球只有三家公司能够生产 DRAM——SK Hynix、三星和美光——三家均已满负荷运转,短期内没有新产能上线的可能。

  围绕 HBM4 的技术路线之争,他认为市场过度解读了其中的戏剧性。SK Hynix 选择台积电 12 纳米制程制造 HBM4 基础芯片,三星使用自研 SF4X 逻辑节点,而美光坚持沿用内部 DRAM 制程,导致进度落后。

  但他认为这些差异对财务影响有限:"三家都会以相当高的毛利率卖光所有产品,谁在乎呢?"他补充说,即便美光 HBM4 未能进入英伟达 Rubin 平台,也可以将产品卖给其他客户,或以高价出售普通 DRAM。

  他将 DRAM 和 HBM 视为同一类别,并表示相比 NAND 闪存,他更偏好 DRAM,原因是 NAND 更容易出现供过于求的情况。

  “电网保卫战”:AI 尽头的固态变压器与功率半导体

  相较于已经被市场高度关注的算力芯片内部竞争,分析师将最大的“想象空间”留给了数据中心之外的电力交付系统。

  AI 数据中心对电网构成了前所未有的挑战。当几万到十万张 GPU 在训练间隙停止计算、进行互联通信时,电网负载会发生剧烈的波动。“这对电网运营商来说是一个‘恶魔般的噩梦’(satanic nightmare)。”

  访谈中披露了一个极具戏剧性的细节:

  去年 PyTorch 团队甚至在代码中加入了一个名为“Power Plant No Blow Up(发电厂别爆炸)”的特殊标志。其作用是,当 GPU 不需要做数学运算时,强迫它以最大速度进行“垃圾计算”。

  “假设你的芯片正常运行需要 500 瓦,不工作时本应降至 200 瓦。但现在不行,必须全程保持 500 瓦,因为我们不能让电网运营商生气。”负载的剧烈拉扯会反向传播并破坏电网稳定,这也是许多 AI 数据中心拿不到电力许可证的核心原因。

  为了解决这一痛点,基于碳化硅(SiC)和氮化镓(GaN)等宽禁带材料的“固态变压器”正迎来产业拐点。传统变压器体积庞大且完全是被动器件,交付周期长达 12 到 18 个月;而固态变压器虽然昂贵,但可以通过晶体管进行动态“负载调节(Load regulation)”。 “你可以动态编程,确保两侧的电流和电压基本一致……电网运营商会更高兴,你也能拿到供电许可。”

  分析师预测,这项技术将在未来 36 个月内起飞,相关功率半导体公司(如 Wolfspeed 以及部分从光伏逆变器转型的公司)虽然目前处于周期低谷甚至亏损,但在 AI 电力调节需求的驱动下,具备极大的重估弹性。

  逻辑晶圆与先进封装:边际改善,但仍紧张

  相比磷化铟和内存,@bubbleboi 认为逻辑晶圆的情况在过去六个月有所改善。

  台积电产能依然紧张,但三星先进逻辑产线的利用率已从接近零回升,英特尔也开始接受外部客户。

  他认为先进封装(CoWoS、EMIB)的紧张程度将低于市场预期,部分原因是英特尔在马来西亚的产能正在扩张,且台积电更倾向于将洁净室空间用于毛利率更高的 N3 制程。

  CPU 短缺与另类加速器:被忽视的隐患

  @bubbleboi 将 CPU 列为"大问题",认为其短缺程度超出市场认知。

  AMD 面临 GPU 与 CPU 争夺台积电产能的两难困境,ARM 自身没有晶圆配额,而他认为唯一有能力填补缺口的是高通——因为安卓手机需求下滑导致高通在台积电有闲置产能,可以转产数据中心 CPU。但他对高通能否成功持怀疑态度,"他们已经失败了三次"。

  在另类加速器领域,他对 Positron 和 Cerebras 持正面看法,但对 Cerebras 有明确批评:仍在使用 FP16 而非 FP4 是"愚蠢的错误",IO 设计限制了 KV 缓存卸载能力,且封装良率可能仅在 20% 至 40% 之间。

  对于 Taalas,他认为其将权重硬编码进芯片层的工程设计"非常非常聪明",可将芯片设计周期从一年以上压缩至两到三个月,且无需 HBM 或任何先进封装,成本极低。但他对其商业前提持怀疑态度——AI 模型权重更新频率极高,而 Taalas 要求 50% 至 90% 的权重固定不变,"我不认为 AI 公司会接受这个前提"。

  最后,当被问及“如果你是黄仁勋,你会试图锁定什么供应链”时,分析师的一句原话为目前的 AI 硬件竞争做出了注脚:“他已经锁定了所有东西的产能。我本来想说光纤,但他已经去跟康宁谈交易了。我认为这个人是神(the man is a god),他已经把能锁定的全都锁定了。”

  以下是采访问答文字实录(由 AI 协助翻译)

  Chris:三到五年后,哪些替代性加速器可能会承担非常大量的训练或推理任务?

  @bubbleboi:训练方面,我认为它们基本上都不行。推理方面,我非常看好 Positron 和 Cerebras,但原因截然不同。还有谁呢?MatX。问题是我没有足够的信息。所以它可能不错,但我对他们一无所知。所以简单回答就是 Positron 和 Cerebras。还有 Taalas,我不太相信他们的前提,但这很酷,我有点想为他们宣传一下,因为如果前提成立,那将非常惊人。但我认为 AI 领域的人不会容忍这个前提。是的,这些是我真正喜欢的三巨头,MatX 在旁边,因为我不够了解。我仍在努力让他们同意和我谈谈。

  Chris:你不同意的 Taalas 的前提是固定权重?

  @bubbleboi:他们正在做的是使用上层掩模层来烧录权重。一旦你有了权重,就无法更改。鉴于 AI 模型变化如此之快,比如每两周就有 GPT 5.5,然后是 5.6。如果你和这些公司工作的人聊聊,模型内部在 constantly 变化。模型末尾有个十六进制数。每隔几周就有更新。权重在不断变化和微调。

  Taalas 表示他们支持微调。我认为他们的意思是,当前芯片支持对权重进行一些修改,但远未达到你想要的那么多。他们当前的芯片是三分之二硬编码权重,三分之一只是 SRAM 机器。他们能支持微调的原因是那三分之一是 SRAM,你可以更改或微调一部分权重,或者做 LoRA 之类的事情。他们基本上是在跟客户说,你的模型硬编码越多,运行得就越快,但你需要做出权衡。在理想情况下,有人可以设计一个模型,其中 90% 的权重是硬编码的(我随便说的数字)。它会运行得超级快。然后 10% 用于 LoRA 或更新权重。我不知道是否有大客户会接受这种程度的限制。我认为不会。但 Taalas 背后的工程实际上非常非常聪明。

  他们使用上层掩模层。现在的芯片大概有 14 层,姑且说是 14 或 15 层。他们用上层三分之一中的一层来编程和硬编码权重。所以你想一下,通常芯片设计最少需要三个月,通常更久,然后需要流片,再过五六个月芯片才能回来,然后还得验证。Taalas 不得不为他们自己的编译器、验证栈和芯片设计制作了一堆定制 EDA 工具,他们声称一天之内就能完成一个新模型。最终目标是。目前大概需要一周。所以设计需要一周,然后因为他们只更改上层,其中一层,他们可以储存晶圆。所以如果你去台积电或任何晶圆厂,这在行业里很常见,你可以说,嘿,我希望你们把X数量的晶圆保持在 70% 的完成度,先别完成最后一部分,因为我们正在做研发之类的。所以 Taalas 的周转时间比我最初预期的要快得多。新设计需要一周,然后大概两个月。这是我的估计,肯定不是六个月。所以两个月内你就能拿回芯片并运行它。他们声称他们制作了一些非常聪明的 Verilog 编译器工具和线程仿真工具,与标准 EDA 工具对接,以很好地验证一切。所以后硅验证应该没问题,因为芯片的基础设施已经验证过了,你只是改变权重。他们把原本至少一年的流程从开始到结束,理论上缩短到了两三个月,这还不错。

  从模型架构的角度来看,我更像一个硬件人。我不太懂模型架构。我努力想弄明白,好吧,如何实现大部分权重固定,只改变一部分权重,比如单层中的权重之类的。然后我发现了 LoRA,我问了那些真正懂 AI 的人,他们告诉我,哦不,LoRA 不能扩展之类的。这很蠢。只有失败者才用 LoRA。但如果前提确实成立,如果他们找到一个愿意使用 LoRA 或其他算法的客户,其中很大一部分权重是固定的,并且我们会 constantly 服务这个模型,这样才经济,那么 Taalas 的经济效益将是惊人的。芯片非常便宜。它不需要任何 HBM 或任何类型的内存。不需要任何类型的先进封装。即使是 PCB,他们在芯片到芯片通信上受到延迟限制,完全没有带宽限制。所以他们使用 PCIe 和 CXL,他们目前的主要限制是他们的芯片上没有最新版本的 CXL,显然 CXL 3.0 提供的一些功能会对他们有实质性的帮助。但他们目前也还好。所以你将拥有惊人的、不可思议的性能(在其他任何架构中都不可能实现),而且价格极其便宜。只是有这样一个限制:很大一部分权重,可能在 50% 到 90% 之间,需要是固定的,你不能更改它们。要更改它们,你将不得不扔掉所有或大部分芯片,然后等待两到三个月,而新设计的成本大约是 25 万美元。

  拿 Taalas 的 CEO 来说。他在一次采访中说,新版本芯片的设计成本“相当于一台 H100 服务器”。假设你运营一个数据中心,用 Taalas 芯片服务某个模型,你决定扔掉所有 Taalas 芯片,因为模型需要更新。所以你必须注销这笔资本支出,付给 Taalas 额外的 30 到 50 万。最坏的情况是,他们在两三个月内为你制造新芯片,然后你部署它们。再说一次,没有内存问题。甚至没有 PCB 问题。你可以使用低质量的 PCB 材料,因为它们只是运行非常慢的 PCIe。所以这可能行得通。我只是对模型了解不够,看不出它是否真能行得通。

  Chris:在堆栈的不同层面中,你认为未来几年哪些最终会面临最严重的供应限制?

  @bubbleboi:是的,几乎所有。如果你在一月或二月问我,我会给出截然不同的答案,但现在所有都受限。

  Chris:为什么市场从去年九月左右开始对此疯狂?

  @bubbleboi:我不明白这点。有时候市场真的很奇怪,我跟很多对冲基金的人聊,我会说,你们很聪明,为什么现在才意识到这个?很奇怪。

  Chris:宏观观点是不是大家都开始明白了,好吧,超大规模企业的资本支出将继续增加,至少绝对值上会增长?

  @bubbleboi:是的,宏观情况是人们不断地来回摇摆。我给你举个有趣的例子。有人告诉我,传统能源投资者都在做空 Bloom,因为他们觉得,哦,Bloom 太贵了,天然气涡轮机更便宜,这是个泡沫。我说,哥们,这是关于通电时间的问题。你们完全错过了重点。

  Chris:他们不了解这类客户面临的限制。

  @bubbleboi:我知道。你不明白人们为什么选择这个。不是因为更便宜。每兆瓦的经济性可能差很多。但你现在就能拥有它。如果你必须将数据中心项目推迟至少六个月,……我跟更多专注于 AI 和半导体的对冲基金聊过,他们说,哦,我们知道其他那些做空 Bloom 的能源对冲基金。为什么要自寻死路做空这个?金融世界里有很多奇怪的事情。所以我无法解释。

  Chris:哪些其他层面最终会成为瓶颈?

  @bubbleboi:磷化铟情况非常糟糕。简直不可思议。我不知道很多人会怎么办,但任何与磷化铟相关的事情都真的、真的、真的很糟糕。

  磷化铟用于激光器和光学器件,因为硅无法产生光。人们仍然不明白情况有多糟,因为 CPO 对激光器的噪声性能提出了更高的要求。

  Chris:比如 Aixtron?

  @bubbleboi:哦,是的。所以他们制造用于磷化铟生产的设备。他们某种程度上不是瓶颈,嗯,他们可能是,但他们正在制造更多的机器,而像 Lumentum、Coherent 和 Sumitomo 这些公司正在购买这些机器。我做多这些。更像是 Lumentum 和 Coherent 的产能问题。衬底领域,AXT、Sumitomo、IQE 等等,这些才是瓶颈。

  Chris:IQE 是什么?

  @bubbleboi:有家英国公司,我认为他们做外延。在这个磷化铟制造链中有很多名字。目前基本上都是一场灾难。

  Chris:基本上就是没有足够的磷化铟供应全球?

  @bubbleboi:是的,嗯,磷化铟矿目前我认为还好。但是将磷化铟加工成晶体,然后制成晶圆,然后在晶圆上做外延,再把激光器印制到晶圆上,所有这些,完全是一场灾难。因为 CPO 激光器的工作方式需要更高的功率,这意味着你的芯片尺寸必须显著增大,并且它们需要更窄的线宽和更好的噪声性能,这通常意味着你必须增大芯片尺寸。

  这也是为什么 SiPho 和 Tower Semi 涨上天的部分原因。传统上,收发器世界的工作方式是,从 EML 开始,它基本上就是一个单一的 monolithic 磷化铟芯片,包含调制器(用于上下摆动光)和连续波激光器,都在同一个磷化铟芯片上。由于物理原因,EML 的性能总是优于硅光。通常,在每一代收发器(如 400G 或 800G)推出的一两年后,人们开始转向 SiPho 以节省成本。你设法让 SiPho 的性能足够好,然后省钱,因为现在你不再购买大的 EML,而是购买一个更小的连续波激光器,然后把它放进 SiPho 模块里进行调制。

  但无论如何,这次 SiPho 涨上天了,因为每个人都想,等等,EML 短缺了,然后那些生产 EML 的公司也生产 CW 激光器,他们正将产能重新分配给 CW,因为它的利润率更高,需求也更大。所以现在 CPO 的需求正在扼杀已经严重供应不足的 EML 供应。现在,1.6T 收发器是第一代 SiPho 几乎从一开始就占据主导地位的产品。我认为在六个月内它就占据了多数份额。我不知道完整的数据,但这完全不同。如果你看看每一代收发器以及 SiPho 与 EML 的市场份额对比,这次完全不同。这是因为磷化铟严重短缺。

  接下来,我认为是内存,因为没有洁净室产能。有人问我这个问题,也不是完全愚蠢的问题:哦,三星,他们有逻辑晶圆厂和内存晶圆厂,为什么不直接把逻辑生产线重新分配给内存?因为内存晶圆厂在使用的设备、工艺和所有上都完全不同。所以只有三家公司能生产 DRAM。它们全部被订满了。短期内不会有新产能上线。

  Chris:也就是 Hynix、Micron 和 Samsung?

  @bubbleboi:是的,这三家。所以这是第二严重的瓶颈。但人们对此非常清楚。

  Chris:这三家内存制造商之间差距大吗?

  @bubbleboi:我个人认为这不重要。有很多戏剧性和噪音。供应如此短缺。任何东西都能以 80% 的毛利率卖光。谁在乎?历史上 SK Hynix 明显领先,三星则有点自焚。情况非常糟糕。美光大概是第二。现在关于 HBM4 的 die 速度有很多内幕消息,来自供应链爆料人的各种噪音。基本上对于 HBM,在 HBM4、3E、3 之前的所有 HBM,其基础 die(包含许多接口逻辑电路)都是在内部 DRAM 工艺节点上制造的。这之所以重要,是因为它更便宜,因为 DRAM 厂商用自己的晶圆厂来制造。但晶体管质量差得多。DRAM 是为慢速、微小的晶体管和巨大的电容设计的,而不是为逻辑设计,所以速度受限。

  所以到了 HBM4, 所有人某种程度上被迫放弃了这个策略。嗯,他们本应放弃这个策略。实际情况是 SK Hynix 去找了台积电,开始使用 12 纳米级别的工艺。这比他们用内部 DRAM 工艺拼凑出来的垃圾要好得多。但仍然是 12 纳米,不是很好。三星有自己的内部 SF4X 逻辑节点,不是 4 纳米,我最多说它能跟台积电 N6 打平,或者在台积电 N6 和 N7 之间。对于它需要做的事情来说相当不错。美光很蠢。他们说,不,我们要用我们自己的内部 DRAM 工艺。他们有点搬起石头砸自己的脚,耽误了自己。然后有很多 drama,哦不,美光进不了 Nvidia Rubin。没人在乎。他们只会以天价卖出更多的普通 DRAM 或 HBM3E。这些都不重要。这三家公司都将以相当高的价格卖光他们拥有的所有产品。质量差距现在相当接近了。以前三星的 HBM3 非常差,没人能用。某些人无论什么价格都不会用三星的 HBM3,因为有很多功耗问题。它太耗电了。但现在它们都足够接近了,好吧,假设英伟达标准更高,拒绝了美光的 HBM4,他们会把 HBM4 卖给其他人,或者干脆以惊人的毛利率出售普通 DRAM。这不会在财务上影响美光。所以这方面幕后有很多 drama,我认为坦率地说很愚蠢。

  Chris:当你说内存时,你特指 DRAM 还是 HBM 和 DRAM?

  @bubbleboi:是的,我说 DRAM 时就把 HBM 包含在里面了。都是同类的。我把内存分为 DRAM 和 NAND 闪存。就这两类。DRAM 就是所有不是 NAND 闪存的内存。

  Chris:你说的第三大瓶颈是逻辑晶圆厂?

  @bubbleboi:你可以看到英特尔涨上天了,问题正在解决。问题是台积电就是没有足够的产能。他们太保守了。六个月前,三星在先进逻辑上基本上没有利用率,几乎为零。而英特尔只供内部用。现在有外部公司涌入,三星的利用率也变得相当高了。所以有一些弹性空间,逻辑情况在二月份看起来非常糟糕。现在好多了。虽然仍然相当糟糕,但没有恶化。内存和磷化铟在过去六个月恶化了。逻辑有所改善,但仍然相当糟糕,因为建设这些生产线需要很长时间,而且再次强调,只有三个玩家:三星、英特尔、台积电。

  Chris:过去六个月还有哪些瓶颈恶化了?

  @bubbleboi:不,主要是那两个类别。我不认为功率半导体情况会变糟,但我认为它们是最有趣的类别,因为电动汽车情况不佳,所以有很多闲置产能。

  Chris:你能解释一下功率半导体吗?

  @bubbleboi:功率半导体将电力从一种电压转换为另一种电压。你可以这样想。你有一个几千伏交流电的电网。你需要将其转换为较低的交流电,然后最终需要将其转换为直流电压。800 伏直流,400 伏直流,240 伏交流。最终经过几个步骤后,你的高端逻辑芯片消耗大约 1.2 伏左右。更准确地说,每个高端逻辑芯片,那些 3 纳米的芯片,标准电压大约是 0.75 伏。还有一些高压侧电压,比如 1.1 伏或 1.5 伏。所以你必须从非常高的电压降到芯片所需的低得多的电压。因此需要多个转换阶段。有些材料叫宽带隙材料,碳化硅和氮化镓,由于物理原因,它们比硅好得多。

  Chris:效率更高,所以节省能源成本,并且需要更少的冷却?

  @bubbleboi:是的,没错。效率更高。而且能承受更高的电压。你试着把硅芯片放在同样的位置,它会烧掉,会自毁。

  Chris:在你提到的公司中,TI、Navitas、onsemi、Infineon,你最喜欢哪个?

  @bubbleboi:嗯,这周末我会发帖。快写完了。目前在氮化镓领域,TI 和 Navitas 并列第一,Infineon 远远落后第二。onsemi 声称他们有很厉害的东西叫垂直氮化镓。但只是幻灯片。没有数据表,没有实际规格。只是说,我们做了个东西,它会有这些惊人的数字。好吧,当然。所以 onsemi,也许他们有东西,也许没有。在碳化硅方面我还没搞清楚,还需要几天。但碳化硅方面一个有趣的玩家是,它是一个 meme 股票,但也不是 meme 股票。那就是 Wolfspeed。

  Chris:给我讲讲 Wolfspeed。

  @bubbleboi:他们 massively 过度建设了产能。他们是纯碳化硅公司,并且垂直整合。他们制造晶圆、衬底,他们制造器件, 所有都在内部完成。

  Chris:顺便问一下:对冲基金找你,只想听听你对某些事情的看法,你这样做是因为好玩,这样你也能了解他们问什么问题?

  @bubbleboi:我也在学习。我了解到这些人的思维方式。因为我只是个小人物。我不影响市场。这些人才影响市场。他们也分享想法。特别是 Wolfspeed,就是从一次对冲基金谈话中得知的。

  Chris:Wolfspeed 是从对冲基金谈话中得知的?

  @bubbleboi:那是从五个来源来的。这是一只非常有趣的股票。他们是垂直整合的,100% 美国本土。他们过度建设了碳化硅产能,然后被中国竞争和电动汽车 downturn 打击了。他们真的破产了,第 11 章破产。他们不久前才从第 11 章破产中走出来,我想大概是四个月前。我得查一下。但确实是很近期的事。因为你的供应商破产了, 所有人停止从他们那里购买。所以他们的工厂利用率据称只有 30% 左右。非常非常低。现在他们回来了。问题是,如果市场有所好转,这只股票能涨 5 倍。杠杆率太高,太疯狂了。但它刚刚破产。而且它的毛利率是负的。你可以看他们最新的财报。他们的毛利率是负 20%。他们的指引是,我们预计毛利率将继续为负。他们 literally 每生产一颗芯片就亏钱,因为产能利用率太低了。

  现在有趣的是,也是人们一直找我的原因,是 Wolfspeed 推出了这个 10 千伏的碳化硅芯片。这些芯片 literally 就是一个晶体管,一个必须承受 insane 电压和电流水平的超级、超级强壮的晶体管。目前市场上额定电压最高的碳化硅晶体管在 1700 到 2000 伏范围内。Infineon 有一个 3.3 千伏的器件。除了 Wolfspeed,没有人有高于这个的。Wolfspeed 说,哦,我们可以做一个 10 千伏的器件。我看着这个数据表,这东西简直是 insane。我不知道他们到底是怎么做到的。而且不是一眼就能看出,它到底是更好还是更差?因为晶体管只是开关,理想情况下,当你打开晶体管时,你希望它是一个完美的开关,没有电阻。但这从来都不是真的。总会有一些寄生电阻。所以当晶体管导通时,它就像一个微小的电阻(这是过度简化了)。我看着这个 Wolfspeed 器件的寄生电阻,以及损害开关速度的寄生栅极电容,并将其与竞争对手完全不同的器件,比如 2000 伏和 3000 伏的器件进行比较。寄生参数更差,但你只需要一个这样的器件,而不是三个。我不得不查看一些电路仿真来弄清楚。我认为这个 10 千伏的器件实际上相当不错。它将用于基础设施。在数据中心里完全没用。当我告诉这些基金的人时,他们说,哦不,它在数据中心没用。我说,兄弟,你错过了大局。固态变压器。你需要为高压交流电和数据中心之间的电网提供负载调节。

  所以我更看好位于数据中心外部的电力输送,而不是数据中心内部的。我觉得每个人都在关注谁会在英伟达设计和 OCP 设计的电源架中胜出,物理上位于数据中心内部。这是个有吸引力的机会。但位于数据中心外部、介于数据中心和电网之间的东西,也非常有趣。事实上,可以说更有趣。所以是的,我喜欢功率半导体。我认为这将是下一个爆发并成为瓶颈的东西。它不会成为主要瓶颈,因为电动汽车基本上不行了,所以有很多闲置产能。但它是最令人兴奋的,因为情况将会发生变化。

  Chris:你更看好数据中心外部的电力输送,而不是内部的?

  @bubbleboi:你有没有开车经过看到变电站附近那些圆形的东西,还有那些大箱子?那些是传统的变压器。它们的工作原理是,你有一个巨大的铁芯,然后一侧绕着一堆铜线圈,另一侧也绕着一堆铜线圈。这些基本上是无源器件,你可以将比如 100 千伏的交流电转换为 35 千伏的交流电,然后将 35 千伏的交流电转换为 7 千伏的交流电,然后再将其转换为 240 伏、120 伏的交流电进入你家。或者转换为 2000 千伏的交流电供给工业用户,用于长距离输电。你想要极高的电压以减少电力损耗。但要实际使用它,你必须用变压器降压。这些变压器通常是被动的、笨重的东西,它们很糟糕,因为购买它们需要很长时间。你现在下一个订单(这还是在 AI 热潮之前),然后 12 到 18 个月后他们才会给你,因为它就是一大块金属。制造它需要很长时间。

  我认为人们不理解的是,他们在 AI 数据中心方面遇到了一个大问题。想想看,假设你在电力公司工作,比如 PG&E。你有新客户接入你的电网,你必须管理他们,他们的负载在剧烈地上下波动。这些客户会说,哦,我们现在需要一千兆瓦。然后五分钟之后,不,实际上我们只需要八百兆瓦。这对电网运营商来说简直是恶魔般的噩梦。我不知道你有没有看到,去年推特上流传,PyTorch 团队添加了一个特殊的标志,叫做"电厂别爆炸"。这是个有趣的事情。那么这个标志是做什么的?当时发生的问题是,你有很多 GPU,1 万个,10 万个。它们在为训练做大量计算,然后其中一些要么停止计算,要么以低得多的速率计算,因为它们在进行互联、互相通信、全归约等等。这导致了电网的不稳定。电网运营商说,无论你在做什么,停下来,否则我们就要切断你的连接。这很危险。你们在破坏电网。所以 PyTorch 中这个标志的作用是,如果 GPU 不需要做计算,也强制它以最大速度进行计算。就让它做垃圾计算,然后把垃圾结果发到 nowhere。假设你的芯片运行在 500 瓦。正常情况下,如果不工作,你会希望它降到 200 瓦。但在这里,不,我们不希望它降到 200 瓦。让它一直保持在 500 瓦,因为我们不希望电网运营商对我们发火。电网运营商生气的原因是,如果你考虑一个电力系统,当你有这些无源组件,这些无源变压器时,任何对负载的推拉都会反向传播到电网,使其不稳定。这在过去还好,因为电网人员会管理这些事情,并且有一些稳定电网的变通方法。但现在情况不再是这样了。

  我们刚谈到了普通变压器。现在有固态变压器。我不知道为什么叫固态变压器,因为以前的变压器也是固态的,它们是无源的。与其用一大块铁和一堆铜线圈,不如用碳化硅芯片构建一些电路,你可以做同样的事情,将高压交流电转换为低压交流电,甚至直接将高压交流电转换为直流电。为什么人们以前不这样做?这东西从 2020 年就有了。它更贵。你可以尽情抱怨传统变压器,但它们便宜,你等上 12 个月就能拿到货。固态变压器贵得多,但它们有一个巨大的好处。那就是你可以进行负载调节。你可以动态地编程固态变压器,以确保两侧的电流和电压大致相同。你可以改变开关频率。所以如果负载增加,你可以以更高的频率开关,或者如果负载减少,你就以更低的频率开关。

  Chris:他们在固态变压器中使用功率半导体。

  @bubbleboi:是的,所以这些是有源器件。它基本上就是一堆晶体管。不再是无源器件,一堆电感、铜线圈和一些二极管,而是晶体管。你通过打开和关闭晶体管来管理电力,不仅仅是转换电力,还要管理它,以便你得到一个干净的 800 伏,而不是 800 伏正负 20 伏之类的。或者输送 1000 安培,而不是 1000 安培正负 10%。你可以调节它。这非常重要,因为这样你就不用在 PyTorch 中使用"电厂别爆炸"标志浪费电了,你可以降低 GPU 功率,你就能获得巨大的效率提升。电网运营商也会对你更满意。很多时候,许可问题,比如你试图建一个数据中心,但许可没批下来,你会想,为什么会这样?这是因为电力公司会说,你会破坏电网稳定。我们不能这样做。然后现在你可以说,好吧,我会安装一些固态变压器,这是我将如何不破坏你的电网的方案。然后电力公司会说,好吧,我把电卖给你,你自己接进去。所以人们通过各种创造性的方式绕过这个瓶颈。但我认为现在是时候做固态变压器并承担成本了,因为价值就在那里。是的,你为转换电力的那个箱子付了更多钱。但你获得了所有这些好处。我认为这将在明年开始加速。这更像是 2027 年下半年的故事。但股票的运作方式是,人们会搞明白然后提前买入。股票是 forward looking 的。所以这现在已经开始发生了,我认为在接下来的 36 个月里它会更加蓬勃发展。

  Chris:相比于销售固态变压器的公司,你对功率半导体公司会更兴奋吗?

  @bubbleboi:一般来说是的,因为至少我个人投资风格是理解工程,或者至少尝试理解,并且我能找出差异点。我在比较,我能看出谁的芯片比谁的好,谁能收取溢价。那些购买这些芯片并组装成箱子的公司,那里也确实有价值,因为涉及到控制方面。假设这个箱子有一千个非常强大的晶体管。如果没有保护电路和控制,那是极其危险的。你可能会烧毁连接到它的所有东西,产生电压尖峰。所以如何将这些功率半导体组合在一起有 careful 的设计考量。这里有两家公司。很多人一直在向我推荐这个,我之前没当回事。然后当第 15 个人发给我时,我说,好吧,我会读一读的。这两家公司叫 SolarEdge 和 Enphase Energy。它们的历史是为太阳能电池板制造微型逆变器。太阳能电池板部署的问题是,太阳能电池板是直流的,但显然你家是用交流电的,所以你需要将每个太阳能电池板从直流转换为正确的交流电。然后还有很多安全方面的事情,你必须控制它,等等。所以这些公司为家庭太阳能部署做这些微型逆变器。自从家庭太阳能的税收优惠政策变差以来,这些公司彻底完蛋了。你可以看看它们的股价。2021 年左右有个泡沫,然后它们跌了 90%。它们现在就是垫底的股票。这些公司正在转向固态变压器。他们看到了机会。我还没时间深入研究,但我实际上认为这是靠谱的。这是一个超级愚蠢的想法。但我认为作为股票它实际上会涨。因为他们在这类器件的组装和保护电路方面非常有经验。而且这可以说比他们在太阳能领域做的更容易,因为你不是把它分布在整个屋顶上,你只是把所有东西放在一个盒子里,你可以更容易地进行过流保护。他们甚至有一些差异化的技术。Enphase 有一个 22 纳米的控制 ASIC。他们自己设计了 22 纳米芯片来控制所有这些微型逆变器,因为你需要进行一定程度的计算,并向所有这些模拟部件发送一系列不同的信号。这是一个分布式系统问题。基本上,你必须告诉一万个晶体管它们需要以什么速度开关,然后还要检测故障等等。所以他们有一个控制 ASIC,这简化了他们的工作。这是一个真正的竞争优势。

  Chris:Delta Electronics 怎么样?

  @bubbleboi:是的,Delta 是大玩家。所以有 Delta、Vertiv、Eaton 等等所有这些大公司。这是他们的核心业务。这是他们已经做的事。这些股票已经涨了不少。SolarEdge 和 Enphase 有吸引力的地方在于它们已经被遗弃了,没人关注。这些股票,如果成功,能涨 5 倍。你是想追逐像 Vertiv 那样已经涨了很多的,还是想追逐这种有点 degenerate 的?所以这很有趣。这不是个坏主意。它可能成功。你想赌一把,就把投资组合的 0.5% 放进去。当然,为什么不呢。

  Chris:对冲基金一般都问你什么?

  @bubbleboi:他们通常想听听我对某些事情的看法,因为我的投资记录是公开的,而且我的表现超过了他们所有人,不过请注意,我承担了 insane 级别的风险。这些家伙很多是市场中性的,所以我的表现跟他们比并不公平。但我确实做得相当不错。他们会问我意见之类的事情,很多时候都是技术性问题,因为我对估值一无所知。有时候有新基金问我,哦,你对估值怎么看?难道你不读我写的东西吗?但,是的,工程类问题。例如,Wolfspeed 那个事。他们没人知道这个 10 千伏的碳化硅芯片到底好不好,以及会用在什么地方。我甚至觉得 Wolfspeed 自己也不知道它会怎么用,因为他们把核聚变反应堆电力输送写在了数据表和新闻稿里。我就想,你们这真是扯得太远了。很多时候,公司管理层会告诉这些金融人士一些事情,他们会问,他们说的是真话吗?我会回答是或否,或者情况复杂,你应该追问这些问题。所以主要是技术性的,但不完全是。

  Chris:Cerebras,你现在怎么看?

  @bubbleboi:我喜欢它。我也有一些 harsh 的批评。Andrew Feldman 显然对此非常清楚。他们用的是 FP16,这是个愚蠢的错误。如果他们实现 FP4,仅此一项就能获得 3 到 4 倍的容量。这是个容易实现的目标。这只是数字逻辑。他们还需要修复 IO 以卸载 KV 缓存。我不接受那种"哦,已经够好了"的论点。这是个糟糕的借口。如果你有机会把你的产品提升 10 倍,你就应该把它提升 10 倍。不要满足于平庸。最后,他们的毛利率表明他们的良率非常差。他们公开声称他们在晶圆级别的良率是 100%,我相信他们,这意味着他们封装晶圆的良率是糟糕透顶的。大概在 20% 到 40% 之间。我不知道为什么这么差,但他们需要解决这个问题。我仍然对他们有批评,更像是我想成为一个积极的投资者。我正在买入他们的一些股票。我不会离开。我持看涨态度,但也很苛刻,因为它本可以好得多。Andrew Feldman 对 IO 问题持否认态度。我说,不,伙计,别再否认了,快修好它。你可以做得更好。就把产品做得更好。

  Chris:你仍然看空 neo clouds 吗?

  @bubbleboi:是的,有点。看看 CoreWeave 上个季度的情况。我认为基本上他们因为所有短缺(光学器件和内存)而面临更高的成本。所有的金融人士都问,你们通过合同把成本转嫁给客户了吗?CoreWeave 的 CEO 试图回答这个问题两次,我完全不知道答案是什么。因为股价下跌了,我猜金融人士解读为,不,他们被坑了。他们签了长期合同,无法转嫁成本。

  Chris:对最可能倒闭的 neo clouds 有什么看法?

  @bubbleboi:那些小公司。CoreWeave 足够大。Oracle 足够大。Nebius 可能也足够大。我不确定会不会倒闭,但最终会有问题。这里的债务水平。一旦出现 downturn,或者甚至如果加息,今年下半年可能会加息,那将对他们造成严重打击。这只是一个糟糕的生意。还有很多其他很棒的东西可以投资。就去投那些吧。我不明白为什么人们想拥有这些垃圾。

  Chris:Terafab?

  @bubbleboi:没有足够的信息,除了看起来他们可能在授权 Intel 14A 工艺。这是我对情况的猜测解读。没有信息。

  Chris:CPO 的推广会遇到很多问题吗?

  @bubbleboi:我不认为会有问题。担心可靠性的人完全错了,并且不懂工程。问题将是磷化铟短缺,那非常非常严重。但部署方面,不,我不相信会有问题。如果你做得对,如果你做足了功课,就不会有问题。实际上它会比收发器更可靠。

  Chris:对 Amkor 有什么看法?

  @bubbleboi:没有,我不太关注封装领域的玩家。

  Chris:那 Ibiden 或 Unimicron 呢?

  @bubbleboi:没有,我不知道。没有看法。

  Chris:Nokia 还是 Infinera?

  @bubbleboi:哦,是的。它有潜力成为便宜得多的 Ciena 版本。所以如果你觉得,哇,Ciena 涨了很多,估值很高,那么你可以买 Nokia,他们也在尝试做同样的事情。所以我认为这是一个真正的价值投资。它是少数几个估值合理的东西之一。我目前没有持有,但我进进出出过,我需要更多时间来考虑。但,是的,我喜欢它。

  Chris:你偏好的参与磷化铟的方式是什么?

  @bubbleboi:主要是 Lumentum。更冒险的做法是 AXT,然后半导体设备方面是德国公司 AIXTRON。就这三家。

  Chris:你认为目前什么被炒作得最厉害?

  @bubbleboi:我会说是 microLED,因为我认为这是一个骗局。有大约七种 microLED 的替代方案,而且它们在客观上全都更好。所以,是的,我就是讨厌 microLED。

  Chris:GE Vernova。

  @bubbleboi:我持有不少。我在一个只做多的账户里,大概在 170 的价位买了很多股。我的平均成本价大概在 170 到 250 之间。它已经涨上天了,嗯,我想我永远不会卖这个了。所以,是的,很棒。燃气轮机。我运气好,有人很早就给我透露了消息。他们的护城河质量很高。他们是少数能制造这个的公司之一。但到了这个地步,他们已经完全被订满了,股价也涨了这么多,我不确定股价还能怎么更高。产能从哪里来,或者涨价从哪里来?我不知道。

  Chris:从你的只做多投资组合中选几个:Besi、Rigaku、台积电或 Fujikura,哪个最令人兴奋?

  @bubbleboi:Rigaku。

  Chris:那是用于先进封装的X射线?

  @bubbleboi:Besi 已经涨了很多,所以在现在的价位买入,我不知道。但 Rigaku,传统玩家是 Camtek 和 Onto,他们做基于光学的先进封装检测。这些X射线机器传统上用于研发目的。假设你是台积电,你正试图开发你的 2 纳米节点,在研发部分,你需要真正深入地观察并弄清楚发生了什么,你会买几台这种 Rigaku 机器,把它们用于研发,然后再也不用了。现在情况已经发展到,由于全环绕栅极晶体管、背面供电以及下一代先进封装更严格的公差,你必须使用这些X射线机器。你用光学就完蛋了。所以 Rigaku 正从 niche 研发转向生产。Onto 知道他们完蛋了,因为他们作为战略合作伙伴收购了 Rigaku 27% 的股份。基本上,在 Rigaku 机器上运行的软件就是 Onto 的软件。所以很多人说,哦,这对 Onto 是利好。不,不是的。他们知道自己造不出机器,所以就去买了能造机器的公司四分之一的市值,然后顺便卖点软件。所以,就买 Rigaku。所以,是的,那是我最喜欢的专业 niche 半导体设备。我喜欢它。

  Chris:从你的交易账户中:Tower Semi、Lumentum、Intel、Bloom、Semtech,哪个最令人兴奋?

  @bubbleboi:Semtech。绝对是 Semtech。其他的已经涨了很多。Semtech,我仍然认为人们没有完全理解他们做什么。

  Chris:我非常天真的理解是它让铜线工作得更好?

  @bubbleboi:那是真的,但那只是故事的一小部分。他们制造模拟放大器和模拟均衡器。美妙之处在于,这可以用于有源铜缆,可以用于 PCB,可以用于线性可插拔光学器件,可以用于传统收发器,可以用于 Arista XPO 的东西,可以用于近封装光学器件。这他妈的是所有。不仅仅是铜,是所有。太棒了。而且他们拥有最高质量的部件。基本上是他们和 MACOM 之间的双头垄断。Semtech 的部件就是更好。我看过数据表。我用过这些东西。所以很多金融人士,他们和一些业务人员做专家电话会议,哦,是的,我们有两个供应商,等等。我说,兄弟,比例是多少?大概是 90% Semtech,因为 Semtech 的部件好得多。所以,是的,Semtech 还有很大的上涨空间。这他妈太棒了。它无处不在。不仅仅是铜。

  Chris:在不同的细分领域,低、中、高,你认为 HBM 紧俏程度如何?

  @bubbleboi:是的,高。

  Chris:硅光、光学器件、CPO。

  @bubbleboi:也很高。考虑到 Tower 的情况。

  Chris:Tower 发生了什么?

  @bubbleboi:人们提前为 2027 年、2028 年的产能付钱给 Tower。他们的股票涨了大概 15%。那是几十亿美元的市值增长。他们被订光了。

  Chris:你认为光学器件中哪个子集最重要?

  @bubbleboi:磷化铟部分,激光器。

  Chris:先进封装。

  @bubbleboi:我不认为那会成为太大的问题,因为英特尔正在大量增加产能。我想英特尔在马来西亚有很多产能。

  Chris:对 EMIB 的看法?

  @bubbleboi:是的,EMIB 很好。直观上你可以认为 EMIB 基本上和 CoWoS-L 是一样的。有一些技术细节,但从设计者的角度来看是一样的。18 个月前 EMIB 的问题是英特尔在设计规则和客户服务方面有点愚蠢,非常糟糕。然后 Lip-Bu Tan 来了,解雇了一堆人,现在好了。现在人们正在把东西转移到 EMIB,因为,第一,台积电没有足够的 CoWoS 产能,第二,台积电更愿意用他们的洁净室空间来生产 60-70% 毛利率的 N3,而不是用来做 CoWoS。所以我认为先进封装的情况,至少相对于其他东西,不会像人们想的那么糟。其他东西会更糟。

  Chris:ABF 基板。

  @bubbleboi:我知道的不够多。

  Chris:HBF。

  @bubbleboi:我完全不喜欢高带宽闪存。我不认为这是一个好的解决方案,因为它会有耐久性问题。所以我就是不喜欢它。我甚至不想把它看作一个瓶颈。我只是觉得这是个坏主意。如果你要为此类应用使用闪存,那么你需要让它可插拔。如果它是可插拔的,你就不需要堆叠它。你可以把它放在 CXL 控制器周围,然后放在服务器的某个地方。

  Chris:晶圆。

  @bubbleboi:磷化铟晶圆,相当糟糕。碳化硅晶圆,不。普通晶圆也不,可能还好。

  Chris:PCB。

  @bubbleboi:很糟糕。支持 200G SerDes 的高速、最高质量的材料,是的,非常糟糕。 所有人基本上都被订光了。

  Chris:那里有偏好的投资标的吗?

  @bubbleboi:我交易过 TTMI,进进出出,但现在它涨太多了,我不想再碰了。所以,是的,我不知道该投资哪个。还有好多台湾的玩家我不关注。这是我不碰的领域之一。

  Chris:电力和变压器。

  @bubbleboi:感到兴奋,是的。瓶颈,不是。有很多闲置的晶圆厂产能。但是最兴奋,是的。

  Chris:兴奋是因为它在技术上对你来说很有趣?

  @bubbleboi:技术上很有趣,而且是下一个会爆发的东西。Lumentum 的股票在财报后没涨的一个很大原因,它跌了然后又涨了,是因为 Hurlston 告诉所有人,好吧,我们未来两年的东西都卖光了,这告诉金融人士,好吧,就 upside 而言不会变得更好了。Wolfspeed 有潜力涨 5 倍。它可能会真的疯狂。然后所有常规的功率半导体公司,Infineon、TI、onsemi、STM,它们都能翻倍。它们能翻倍。这还没有被定价进去。其他的已经被定价了。这个还没有。

  Chris:网络交换机。

  @bubbleboi:还好。它只是与逻辑晶圆竞争,并且需要一些 CoWoS,但不多。还好。

  Chris:光纤。

  @bubbleboi:目前不太好。有一些问题。我不认为它像其他东西那么糟,所以姑且说是中等吧。特别是保偏光纤。在某些情况下需要的一种更昂贵的类型。

  Chris:液冷。

  @bubbleboi:还好。我没听说有什么问题。

  Chris:组装和测试相关的东西。

  @bubbleboi:那可以增加产能。正在增加产能。增加产能不具挑战性。

  Chris:CPU。

  @bubbleboi:大问题。是的,大问题。英特尔可以在一定程度上增加产能。这就是为什么它的股价涨了这么多。AMD,他们在一定程度上增加了产能,因为他们正在使用他们旧的基于 N5 的 CPU 设计,并重新增加那个的产能。但现在他们这样做了,如果 CPU 情况恶化,他们该怎么办?

  如果我是 AMD,我想利用我的台积电分配,卖 GPU 还是 CPU?你必须选择。ARM 没有晶圆。高通。尽管我讨厌承认,唯一能帮助解决 CPU 困境的是高通,因为他们在台积电有很多晶圆。

  但问题是,高通是唯一有晶圆产能并且可以将其转向 CPU 的大玩家,因为如果 Android 继续断崖式下跌,他们仍然在台积电有那些晶圆的订单。他们可以告诉台积电去印制 CPU 设计来代替。这就是为什么高通涨了这么多,因为人们抱有希望。高通在数据中心 CPU 上已经失败了三次。这是他们的第三次或第四次尝试。如果他们这次还搞不定,那真的就没希望了。它只需要能用。如果能用,人们会买它,他们会从中赚很多钱,这将拯救公司于 Android 崩溃和苹果即将到来的诉讼。

  Chris:CPU 你更看好谁?

  @bubbleboi:我更喜欢英特尔做 CPU,因为没有什么能让我买高通。但是基金的人问过我,哦,我应该买高通做 CPU 吗?好吧,如果你想相信这些笨蛋,你可以买。但我不会。但是当然,如果你想投,那就投吧。我承认他们有很多产能,我承认他们有很多产能,而且他们有可能做成。

  Chris:DRAM 也是高瓶颈?

  @bubbleboi:是的,我基本上把 DRAM 和 HBM 视为等同。

  Chris:硬盘?

  @bubbleboi:没有看法。我猜既然 NAND 短缺,硬盘可能也变得更紧张了。我对此了解不够。

  Chris:数据中心厂房?

  @bubbleboi:我不跟踪那些东西。没有看法。

  Chris:功率半导体对你来说会是高瓶颈吗?

  @bubbleboi:不,现在是低。目前还不是瓶颈,但一年后会成为瓶颈。所以这就是它最有趣的地方,因为它有上涨空间。

  Chris:NAND。

  @bubbleboi:我认为 DRAM 享有溢价。NAND 也和 DRAM 一样短缺,但我认为 NAND 更危险,因为它比 DRAM 更容易出现供应过剩。但,是的,高瓶颈,不过我要说我更偏好 DRAM 而不是 NAND。

  Chris:是否有任何模型变化,比如长上下文、更多强化学习、世界模型,你预计会极大地改变硬件需求?

  @bubbleboi:我真诚地认为所有人都在朝着更长的上下文长度发展。这其中有经济价值。人们愿意为更长的上下文长度付费。所以这会伤害所有内存,所有。这只是大概的高层次观点。我不太关注模型架构。但从经济方面看,是的,人们想要超长的上下文长度或长序列的 token。

  Chris:如果你是老黄,你下一步会锁定什么供应?

  @bubbleboi:他已经锁定了所有东西的供应。我正想说光纤,然后他就去搞定了 Corning 的交易。我认为此人如神,他已经锁定了所有。我想他确实做到了。

  Chris:哪一家公司你会推荐给你的父母,作为持有 10 年的投资?

  @bubbleboi:英特尔,因为英特尔是一个疯狂的长期持有标的。还有博通、是德科技。SiTime,但也许不是在这个价位。英伟达,显然。台积电。这些都是长期的,可以闭眼买。

  Chris:博通,我猜想他们所有的客户都积极希望摆脱对他们的依赖,还是这不是问题?

  @bubbleboi:谷歌正在尝试。我告诉你,进展并不顺利。除了 Lumentum,另一个磷化铟的大玩家实际上是博通。没多少人知道这个。博通有一个巨大的激光器部门。非常多元化的公司。