一个月30万片H100,英伟达欲找英特尔造芯?只因CoWos产能太低

  新智元报道

  编辑:润好困

  =因为台积电的先进封装工艺产能太低,英伟达准备寻求英特尔来生产 AI 芯片了。据报道,英特尔一个月最多能提供 30 万片的 H100 产能。

  台积电产能不够,逼得英伟达都去找英特尔造芯片了?

  台积电在 2023 年年中承认,其先进芯片封装技术 CoWoS(Chip on Wafer on Substrate)的需求已经超出了他们的生产能力。

  另一方面,被称为「人造黄金」的英伟达 AI 芯片在市场上供不应求,英伟达迫切希望能够尽快提高产能。

  最终,英伟达可能不得不开始考虑利用英特尔的先进封装技术来生产芯片。

  根据外媒曝料,英伟达从英特尔每月理论上能够额外获得 30 万块 H100 芯片的产能(假设产出无瑕疵且合同确实针对 H100)。

  CoWos 封装产能,卡了全世界大厂的脖子

  而对于台积电来说,2023 年是疯狂的一年。基本每个月,媒体都要曝出他们在增加 CoWos 封装工艺的产能。

  2023 年 6 月台积电增加先进芯片封装产能

  2023 年 7 月台积电增加先进芯片封装产能

  而之所以 CoWos 封装的产能不够,最主要的原因是这是一种非常先进的封装技术,只有最先进的 AI 芯片,需要利用这种技术。

  同时,也只有台积电,英特尔等少数芯片厂商,能够使用这种技术封装生产芯片。

  而在 AI 芯片需求没有大幅提升之前,包括台积电在内的芯片制造公司都没有太高的产能。

  2023 年是 AI 爆发之年,各大厂都在加紧储备英伟达的 H100,使得 AI 芯片的需求激增。

  而在整个 AI 芯片的生产供应链中,因为 CoWos 封装的产能短时间难以提升,导致就算英伟达就算已经有了足够多的 H100 的晶圆供应,芯片的产能也会被 CoWos 封装「卡脖子」。

  H100 采用了 CoWoS-S 封装技术,集成了 7 个芯片。

  其中心部位是 H100 GPU 应用特定集成电路(ASIC),其芯片面积达到了 814 平方毫米。

  围绕其周围的是 6 组高带宽内存(HBM)。

  其中,H100 SXM 版本采用了 HBM3 技术,每组内存为 16GB,总共提供了 80GB 的内存容量。

  而 H100NVL 版本则包含两个封装,每个封装都配备了 6 组 HBM。

  台积电依然是最重要的 AI 芯片工厂

  尽管如此,台积电仍将是英伟达主要的供应商,贡献大约 90% 的先进封装产能。

  从第二季度开始,英伟达计划至少对部分产品使用英特尔的产能。

  如果这一信息属实,通过增加英特尔的产能,英伟达将能够更快地满足市场对其现有 AI 和高性能计算(HPC)产品的需求。

  不过,这里存在一个挑战。

  英伟达目前及之前一代的所有产品,包括 A100、A800、A30、H100、H800、H200 和 GH200,都依赖于台积电的 CoWoS-S 封装技术。

  英特尔的与先进封装技术名为 Foveros,但两者使用的中介层技术不同(CoWoS-S 使用的是 65nm 中介层,而 Foveros 使用的是 22FFL 中介层)。

  要使用英特尔的 Foveros 技术,英伟达需要对这项技术进行验证,然后对实际的产品进行质量认证。

  因为两种中介层是基于不同的工艺技术,并且连接点的间距也不同,所以这些产品可能会有一些微小的差异。

  因此,英伟达的合作伙伴在部署这些产品前也需要进行相应的认证。

  外媒报道称,英特尔预计将在第二季度加入英伟达的供应链,每月生产大约 5000 块 Foveros 晶圆。

  对英伟达来说,这是一个相当大的数字。

  台积电在 2023 年中能够每月生产多达 8000 块 CoWoS 晶圆。

  计划到 2023 年底将产能提升到 11000 块,到 2024 年底进一步增加到大约 20000 块。

  如果英伟达每月能够额外获得 5000 块先进封装晶圆,这将明显缓解 AI 芯片产能不足的问题。

  对英伟达来说,将部分先进封装工作外包给 Intel Foundry Service 是一项战略性的举措,旨在多样化其供应链。

  更重要的是,通过利用 IFS 的封装能力,英伟达还能确保这些产能不会被竞争对手使用,从而巩固自己的领先地位。

  CoWos 封装产能为什么难以提高?

  CoWoS(Chip on Wafer on Substrate)是一种 2.5D/3D 封装技术,可以拆成两部分来看,CoW(Chip on Wafer),指的是晶圆堆叠,WoS(Wafer on Substrate)则是将堆叠的晶圆封裝在基板上。

  CoW 的目的是将一个芯片放置在包含其他芯片的晶圆顶部,从而实现高效的空间利用和增强的性能。

  来源:AnandTech

  而 AI GPU 上的必须的高带宽内存(HBM)和 CoWoS 技术是相辅相成的。

  HBM 的高密度连接和短电路设计要求借助 CoWoS 这类 2.5D 封装技术才能实现,这在传统 PCB 或封装基板上难以完成的。

  CoWoS 以合理的成本,提供了最高的连接密度和最大的封装尺寸,成为主流的封装技术。

  由于目前几乎所有使用 HBM 的系统都采用 CoWoS 封装,而所有高性能 AI GPU 都需要用到 HBM。

  所以可以说,绝大多数领先的数据中心 GPU 都采用了台积电的 CoWoS 封装技术。

  而除了高性能的 AI GPU,只有少数的网络芯片,超级计算芯片和 FPGA 会用到 CoWos 封装。

  所以包括台积电在内的芯片制造厂都不会有太高的先进封装产能。

  而包括晶圆在内的其他 AI GPU 供应链的产能都可以从其他地方匀出来,CoWos 封装产能却很难,所以就卡住了英伟达的脖子。

  虽然台积电一直在为更多的封装需求做着准备,但没想到这一波生成式人工智能需求来得如此之快。

  去年 6 月,台积电宣布在竹南开设先进后端晶圆厂。

  该晶圆厂占地 14.3 公顷,足以容纳每年 100 万片晶圆的 3D Fabric 产能。这不仅包括 CoWoS,还包括 SoIC 和 InFO 技术。

  这个工厂比台积电其他封装工厂的总和还要大。

  而且伴随着生成式 AI 浪潮的发展,除了英伟达,其他的芯片公司对于 CoWos 的产能需求也在急剧扩张。

  从 Semianalysis 的图中可以看出,用于建设大规模 AI 集群的网络连接芯片,主要由 Broadcom 提供,也会吸收大量 CoWos 产能。

  所以只靠台积电,英伟达似乎未来也很难获得足够的出货量。

  而英伟达面对如此强大的市场需求,可能等不到台积电的新工厂竣工投产了,加入英特尔现成的产能肯定是一个值得考虑的选项。

  参考资料:

  https://www.tomshardware.com/pc-components/gpus/nvidia-reportedly-selects-intel-foundry-services-for-chip-packaging-production-could-produce-over-300000-h100-gpus-per-month#xenforo-comments-3835443

  https://www.semianalysis.com/p/ai-capacity-constraints-cowos-and