黄仁勋向台积电放核弹!干掉40000台CPU服务器,计算光刻提速40倍

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  芯东西(公众号:aichip001)

  作者  ZeR0 程茜

  编辑  漠影

  芯东西 3 月 22 日报道,全球 AI 计算技术盛会、一年一度的英伟达 GTC 大会如期而至!

  英伟达 CEO 黄仁勋(昵称“老黄”)一如既往穿着标志性的皮衣进行了 78 分钟演讲,满面笑容地分享英伟达又闷声干了哪些大事。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  总体来看,此次演讲可总结成一大「亮点」和一大「重点」。

  「亮点」是英伟达秘密研发四年,向芯片制造业甩出一枚技术“核弹”——通过突破性的光刻计算库 cuLitho,将计算光刻加速 40 倍以上,使得 2nm 及更先进芯片的生产成为可能。全球最大晶圆厂台积电、全球光刻机霸主阿斯麦、全球最大 EDA 巨头新思科技均参与合作并引入这项技术。

  老黄还直接上了一堂光刻机小课堂,配合动画讲解芯片制造的最关键设备光刻机是如何运作的。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  「重点」毫无疑问是生成式 AI。

  老黄对 OpenAI 的 ChatGPT 赞不绝口,夸它“震惊世界”,代表着“崭新的计算平台已经诞生,AI 的「iPhone 时刻」已经到来”。

  据英伟达透露,OpenAI 将在微软 Azure 超级计算机上使用英伟达 H100 GPU,AI 文生图明星创企 Stability.ai 是 H100 GPU 的早期访问客户。

  为了加速生成式 AI 开发及部署,老黄宣布推出 3 款全新推理 GPU,分别擅长 AI 视频、图像生成、ChatGPT 等大型语言模型的推理加速。

  此外,英伟达还发布了 AI 超级计算服务 DGX Cloud、加速企业创建大模型和生成式 AI 的云服务 NVIDIA AI Foundations 等,并宣布与日本三菱联合打造了日本第一台用于加速药研的生成式 AI 超级计算机。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  英伟达也发布了一系列面向元宇宙、汽车、量子计算领域的新进展,包括 PaaS 服务 NVIDIA Omniverse Cloud 现已向特定企业开放、与宝马集团扩大合作建设虚拟工厂、比亚迪更多车型将采用 NVIDIA DRIVE Orin 平台,以及与 Quantum Machines 合作推出了全球首个 GPU 加速量子计算系统。

  老黄宣布,英伟达已经更新了 100 个加速库,目前英伟达全球生态系统已覆盖 400 万开发人员、4 万家公司和 1.4 万家初创公司。

  一、芯片制造炸场!将计算光刻提速40倍,三大半导体巨头站台

  我们先来看看今天的“惊喜弹”:英伟达发布了一个造福先进芯片制造的突破性技术——NVIDIA cuLitho 计算光刻库。

  光刻是芯片制造过程中最复杂、最昂贵、最关键的环节,其成本约占整个硅片加工成本的1/3 甚至更多。计算光刻模拟了光通过光学元件并与光刻胶相互作用时的行为,应用逆物理算法来预测掩膜板上的图案,以便在晶圆上生成最终图案。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  简而言之,计算光刻是提高光刻分辨率、推动芯片制造达到2nm 及更先进节点的关键手段。

  “计算光刻是芯片设计和制造领域中最大的计算工作负载,每年消耗数百亿 CPU 小时。”黄仁勋讲解道,“大型数据中心 24×7 全天候运行,以便创建用于光刻系统的掩膜板。这些数据中心是芯片制造商每年投资近 2000 亿美元的资本支出的一部分。”

  而 cuLitho 能够将计算光刻的速度提高到原来的 40 倍。老黄说,英伟达 H100 GPU 需要 89 块掩膜板,在 CPU 上运行时,处理单个掩膜板需要两周时间,而在 GPU 上运行 cuLitho 只需 8 小时。

  此外,台积电可通过在 500 个 DGX H100 系统上使用 cuLitho 加速,将功率从 35MW 降至 5MW,替代此前用于计算光刻的 40000 台 CPU 服务器。 使用 cuLitho 的晶圆厂,每天可以生产3-5 倍多的光掩膜,仅使用当前配置电力的1/9。

  全球最大晶圆厂台积电、全球最大光刻机制造商阿斯麦(ASML)、全球最大 EDA 公司新思科技(Synopsys)都为这项新技术站台。老黄透露道,cuLitho 历时四年研发,与这三家芯片大厂进行了密切合作。台积电将于 6 月开始对 cuLitho 进行生产资格认证。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  台积电 CEO 魏哲家夸赞它为台积电在芯片制造中广泛地部署光刻解决方案开辟了新的可能性,为半导体规模化做出重要贡献。阿斯麦 CEO Peter Wennink 说阿斯麦计划将对 GPU 的支持集成到其所有的计算光刻软件产品中。

  新思科技董事长兼 CEO Aart de Geus 称,在英伟达的 cuLitho 平台上运行新思科技的光学邻近校正(OPC)软件,将性能从几周加速到几天

  cuLitho 将有助于晶圆厂缩短原型周期时间、提高产量、减少碳排放,为 2nm 及更先进的工艺奠定基础,并使得曲线掩模、high NA EUV、亚原子级光刻胶模型等新技术节点所需的新型解决方案和创新技术成为可能。

  二、发布ChatGPT 专用推理 GPU登浏览器即可访问 AI 超级计算机

  围绕生成式 AI,英伟达发布了一系列加速模型训练和推理的软硬件新品及服务。

  老黄首先讲述了英伟达在生成式 AI 革命之初是如何进入 AI 领域的。

  “英伟达加速计算始于 DGX(AI 超级计算机),这是大型语言模型实现突破背后的引擎。”他谈道,“(2016 年)我亲手将全球首款 DGX 交给了 OpenAI,自此以后,《财富》100 强企业中有一半安装了 DGX AI 超级计算机。DGX 已成为 AI 领域的必备工具。”

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  “生成式 AI 将重塑几乎所有行业。”老黄说,ChatGPT、Stable Diffusion、DALL-E 和 Midjourney 唤醒了世界对生成式 AI 的认知。

  在他看来,生成式 AI 是一种新型计算机、一种可以用人类语言进行编程的计算机,与个人电脑(PC)、互联网、移动设备和云类似,这种能力影响深远,每个人都可以命令计算机来解决问题,现在每个人都可以是程序员。

  1、训练:生成式AI明星企业都在用,AI超级计算机已全面投产

  训练方面,英伟达 H100 GPU 基于 Hopper 架构及其内置 Transformer Engine,针对生成式 AI、大型语言模型和推荐系统的开发、训练和部署进行了优化,利用 FP8 精度在大型语言模型上比上一代 A100 提供了快 9 倍的 AI 训练和快 30 倍的 AI 推理。

  DGX H100 拥有 8 个 H100 GPU 模组,在 FP8 精度下可提供 32PetaFLOPS 的算力,并提供完整的英伟达 AI 软件堆栈,助力简化 AI 开发。黄仁勋宣布,NVIDIA DGX H100 AI超级计算机已全面投入生产,很快将面向全球企业微软宣布 Azure 将向其 H100 AI 超级计算机开放私人预览版。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  黄仁勋说,云计算巨头现在正在提供英伟达 H100  GPU,生成式 AI 领域的多家明星企业都在用 H100 加速工作。

  比如,OpenAI 用 H100 的上一代 A100 训练和运行 AI 聊天机器人 ChatGPT,并将在微软 Azure 超级计算机上使用 H100;AI 文生图明星创企 Stability.ai 是 AWS 上的 H100 早期访问客户。

  最近刚推出开源大模型的社交软件巨头 Meta 开发了基于 Hopper 架构的 AI 超级计算机 Grand Teton 系统。相比其前代 Zion,该系统的算力大幅提升,可同时支持推荐模型和内容理解的训练和推理。

  英伟达与其主要合作伙伴宣布推出强大的 GPU NVIDIA H100 Tensor Core GPU 新产品和服务,以满足生成式 AI 训练和推理需求。

  AWS 宣布即将推出的 EC2 超级集群(EC2 P5 实例)可扩展至 20000 个互连的 H100。Oracle Cloud Infrastructure(OCI)宣布限量推出采用 H100 的全新 OCI Compute 裸金属 GPU 实例。

  为企业和开发者提供多模态视频理解的平台 Twelve Labs 计划在 OCI Supercluster 上使用 H100 实例来即时、智能和容易搜索视频。

  2、推理:发布 3 款 GPU、3 类云服务

  推理方面,英伟达推出全新 GPU 推理平台:4 种配置(L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper 超级芯片)、一个体系架构、一个软件栈,分别用于加速 AI 视频、图像生成、大型语言模型部署和推荐系统。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  (1)L4:针对 AI 视频设计的通用 GPU,可提供比 CPU 高 120 倍的 AI 视频性能,能效提高 99%;优化了视频解码与转码、视频内容审核、视频通话等功能,如背景替换、重新打光、眼神交流、转录和实时翻译等。一台8-GPU L4 服务器将取代 100 多台用于处理 AI 视频的双插槽 CPU 服务器。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  2L40用于图像生成,针对图形和 AI 支持的 2D、视频和 3D 图像生成进行了优化,推理性能是英伟达最受欢迎的云推理 GPU T4 的 10 倍。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  3H100 NVL针对 ChatGPT 等大型语言模型的大规模部署,配备双 GPU NVLink,将两张拥有 94GB HBM3 显存的 PCIe H100 GPU 拼接在一起,可处理拥有 1750 亿参数的 GPT-3 大模型,同时支持商用 PCIe 服务器轻松扩展。

  老黄说,目前在云上唯一可以实际处理 ChatGPT 的 GPU 是 HGX A100。与适用于 GPT-3 处理的 HGX A100 相比,一台搭载 4 对 H100 及双 GPU NVLink 的标准服务器的速度要快 10 倍,H100 可将大型语言模型的处理成本降低一个数量级。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  4Grace Hopper超级芯片:适用于推荐系统和大型语言模型的 AI 数据库,图推荐模型、向量数据库和图神经网络的理想选择,通过 900GB/s的高速一致性芯片到芯片接口连接英伟达 Grace CPU 和 Hopper GPU。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  谷歌云是第一个向客户提供英伟达 L4 推理 GPU 的云服务提供商。谷歌还将 L4 集成到其 Vertex AI 模型商店中。

  3、云服务:登浏览器即可访问AI超级计算机

  英伟达推出了一项名为 DGX Cloud 的 AI 超级计算服务,与微软 Azure、谷歌 OCP、Oracle OCI 合作,通过一个 Web 浏览器就能访问,以便企业为生成式 AI 和其他开创性应用训练先进的模型。

  DGX Cloud 实例的起价为每个实例每月 36999 美元。其每个实例都具有 8 个 NVIDIA H100 或 A100 80GB Tensor Core GPU,每个节点共有 640GB 的 GPU 内存。DGX Cloud 提供了专用的 NVIDIA DGX AI 超级计算集群,并配备了 NVIDIA AI 软件。

  英伟达还推出了全新云服务及代工厂 NVIDIA AI Foundations,使企业能够构建、改进、运营使用其专有数据训练的、用于特定领域任务的定制大模型和生成式 AI 模型:

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  1NeMo文本生成模型构建服务,提供从 80 亿到 5300 亿个参数的模型,会定期更新额外的训练数据,帮助企业为客服、企业搜索、聊天机器人、市场情报等生成式 AI 应用进行模型定制。

  2Picasso视觉语言模型构建服务,具有先进的文生图、文本转视频、文本转 3D 功能,可为产品设计、数字孪生、角色创建等使用自然文本提示的应用快速创建和定制视觉内容。

  3BioNeMo生命科学服务,提供 AI 模型训练和推理,加速药物研发中最耗时和成本最高的阶段,可加速新蛋白质和治疗方法的创建以及基因组学、化学、生物学和分子动力学研究。

  直接在浏览器上或通过 API,均可访问这些运行在 NVIDIA DGX Cloud 上的云服务。NeMo、BioNeMo 云服务已开放早期访问,Picasso 云服务正在私人预览中。

  英伟达也宣布了一系列跟生成式 AI 相关的合作进展,包括与 Adobe 合作开发新一代先进的生成式 AI 模型;与 Getty Images 合作训练负责任的文生图、文本转视频基础模型;与 Shutterstock 合作,训练从简单文本提示中创建生成式 3D 模型,将创作时间从几小时减少到几分钟。

  此外,英伟达与三菱联合发布了将用于加速药物研发的日本第一台生成式 AI 超级计算机 Tokyo-1。通过在 Tokyo-1 上使用 NVIDIA BioNeMo 软件,研究人员能运行高达数十亿参数的先进 AI 模型,包括蛋白质结构预测、小分子生成、姿态估计等。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  三、BlueField-3 DPU已投产,打造全球首个GPU加速量子计算系统

  数据处理单元(DPU)方面,黄仁勋宣布英伟达 BlueField-3 DPU 已投入生产,并被百度、CoreWeave、京东、微软 Azure、Oracle OCI、腾讯游戏等领先的云服务提供商所采用,以加速其云计算平台。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  面向量子计算,要从量子噪声和退相干中恢复数据,需要对大量量子比特进行纠错。对此,英伟达与 Quantum Machines 合作推出了一个量子控制链路,它可将英伟达 GPU 连接到量子计算机,以极快的速度进行纠错。

  双方合作研发的全球首个 GPU 加速量子计算系统 NVIDIA DGX Quantum,将强大的加速计算平台(由 NVIDIA Grace Hopper 超级芯片和 CUDA 量子开源编程模型支持)与全球最先进的量子控制平台 OPX 结合在一起,使研究人员能够构建强大的应用,将量子计算与最先进的经典计算结合起来,实现校准、控制、量子纠错和混合算法。

  NVIDIA DGX Quantum 的核心是 NVIDIA Grace Hopper 系统,通过 PCIe 连接到通用量子控制系统 Quantum Machines OPX+,实现 QPU 和量子之间的亚微秒延迟处理单元(QPU)。

  DGX Quantum 还为开发人员配备了一款强大的混合 GPU-Quantum 编程模型 NVIDIA CUDA Quantum,可以在一个系统中集成 QPU、GPU、CPU 并进行编程。多家量子硬件公司将 CUDA Quantum 集成到他们的平台中。

  美国通信巨头 AT&T宣布与英伟达合作,使用英伟达全套 AI 平台改进运营并提高可持续性。AT&T将使用英伟达 AI 平台进行数据处理、优化服务排队、创建员工支持和培训的对话式 AI 数字化形象。

  四、推出新一代元宇宙服务器,引入生成式AI和模拟仿真更新

  面向元宇宙领域,英伟达推出了第三代 OVX 计算系统和新一代工作站,为基于 NVIDIA Omniverse Enterprise 的大规模数字孪生提供动力。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  第三代 OVX 服务器通过组合双 CPU 平台、BlueField-3 DPU、L40 GPU、两个 ConnectX-7 SmartNIC 和 NVIDIA Spectrum 以太网平台,提供了突破性的图形和 AI 性能,可加速大规模数字孪生模拟等应用,进而提高运营效率和预测性规划功能。

  企业可以利用 OVX 性能在可视化、虚拟工作站和数据中心处理工作流程等方面进行协作。

  此外,新一代 NVIDIA RTX 工作站 RTX 4000 SFF Ada Generation 采用英伟达 Ada Lovelace GPU、ConnectX-6 Dx SmartNIC 和英特尔至强处理器。最新发布的 RTX 5000 Ada 一代笔记本电脑 GPU 使专业人士能随时随地访问 Omniverse 和工业元宇宙工作负载。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  黄仁勋还宣布了英伟达用于构建和操作元宇宙应用的平台 NVIDIA Omniverse 的相关更新,增加了一系列生成式 AI、模拟仿真相关功能,让开发者能够更轻松地部署工业元宇宙应用。

  平台即服务(PaaSNVIDIA Omniverse Cloud现已面向特定企业开放,使企业能够在其核心产品和业务流程中统一数字化。

  “从大型物理设施到手持消费品,每一个人造物体都有一天会拥有一个数字孪生,用来建造、操作和优化物体。”黄仁勋说,“Omniverse Cloud 是用于工业数字化的从数字到物理的操作系统,它的出现正好赶上了正在建设的价值数万亿美元的新电动汽车、电池和芯片工厂。”

  英伟达选择微软Azure作为Omniverse Cloud的首个云服务提供商。由 NVIDIA OVX 计算系统提供支持的 Omniverse Cloud 将于今年下半年与微软 Azure 一起推出。企业可访问 Omniverse 软件应用程序的全堆栈套件和 NVIDIA OVX 基础设施,并享有 Azure 云服务的规模和安全性。

  Azure 上 Omniverse Cloud 的新订阅服务使汽车团队可轻松实现工作流程的数字化,无论是连接 3D 设计工具以加速汽车开发,还是构建汽车的数字孪生工厂或运行闭环模拟来测试车辆性能。

  老黄在演讲期间分享了一个视频,展示亚马逊如何用英伟达 Omniverse 平台构建完全逼真的数字孪生机器人仓库,以节省时间和金钱。

黄仁勋向台积电放核弹!干掉 40000 台 CPU 服务器,计算光刻提速 40 倍

  英伟达与宝马集团宣布扩大合作,为汽车制造商开设了第一个完全虚拟工厂。宝马集团将英伟达 Omniverse 平台用在其全球生产网络中构建和运行工业元宇宙应用。

  此外,英伟达与其合作伙伴发布了全新的 Omniverse Connections,通过通用场景描述(USD)框架连接更多世界更多先进应用。

  结语:生成式 AI 引发了全球企业紧迫感

  “生成式 AI 正在推动 AI 的快速应用,并重塑无数行业。”老黄说,“我们正处于 AI 的「iPhone 时刻」,初创公司竞相构建具有颠覆性的产品和商业模式,老牌公司则在寻求应对之策,生成式 AI 引发了全球企业制定 AI 战略的紧迫感。”

  从今日英伟达的一系列软硬件发布,可以看到英伟达对先进 AI 计算的支撑已经覆盖到从 GPU、DPU 等硬件到帮助企业加速构建定制生成式 AI 模型的云服务,进而推动释放人类的创造力。

  这已经不是老黄第一次“跳预言家”了。英伟达的加速计算产品可以说是与 AI 产业的发展共生共荣。英伟达不断为更大规模的 AI 模型训练提供更强大的算力基座,对 AI 训练和推理的前沿发展起到了重要推动力,蓬勃而生的 AI 热潮又为英伟达带来了更广阔的市场和机遇。

  如今,生成式 AI 所展现出的商用前景几乎激励着每个行业重新设想其商业战略和实现这些战略所需的技术。英伟达正与其合作伙伴迅速行动,为 AI 应用提供更强大的计算平台,让更多人从生成式 AI 等前沿应用的变革性力量中受益。