苏姿丰2小时激情演讲!发布AMD最强AI芯片,旗舰CPU单颗10万,OpenAI微软都来站台

  智东西

  作者 ZeR0

  编辑漠影

  猛,实在是猛!就在今日,老牌芯片巨头 AMD 交出了一份令人印象深刻的 AI 答卷。

  智东西美国旧金山 10 月 10 日现场报道,酷热的天气刚刚过去,旧金山正值秋意凉爽,今日举行的 AMD Advancing AI 2024 盛会却格外火热。

  AMD 倾囊倒出了一系列 AI 杀手锏,发布全新旗舰 AI 芯片、服务器 CPU、AI 网卡、DPU 和 AI PC 移动处理器,将 AI 计算的战火烧得更旺。

  这家芯片巨头还大秀 AI 朋友圈,现场演讲集齐了谷歌、OpenAI、微软、Meta、xAI、Cohere、RekaAI等重量级 AI 生态伙伴。

  备受期待的旗舰 AI 芯片AMD Instinct MI325X GPU首次启用HBM3E高带宽内存,AI 峰值算力达到21PFLOPS,并与去年发布的、同样采用 HBM3E 的英伟达 H200 GPU 用数据掰手腕内存容量是 H200 的 1.8 倍,内存带宽、FP16 和 FP8 峰值理论算力都是 H200 的 1.3 倍

  AMD 还披露了最新的 AI 芯片路线图,采用CDNA 4架构MI350系列明年上市,其中 MI355X 的 AI 峰值算力达到74PFLOPS,MI400 系列将采用更先进的 CDNA 架构

  更高的数据中心算力,离不开先进的网络解决方案。对此,AMD 发布了业界首款支持 UEC 超以太网联盟的 AI 网卡 Pensando Pollara 400和性能翻倍提升的Pensando Salina 400 DPU

  另一款新品是第五代 EPYC 服务器 CPU,被 AMD 称为“面向云计算、企业级和 AI 的全球最好 CPU”,采用台积电3/4nm 制程工艺,最多支持192 核384 个线程。其中顶配 EPYC 9965 默认热设计功耗 500W,以 1000 颗起订的单价为 14813 美元(约合人民币 10 万元)。

  与第五代英特尔至强铂金 8592+ 处理器相比,AMD EPYC 9575F 处理器的 SPEC CPU 性能提高多达2. 7 倍,企业级性能提高多达4. 0 倍,HPC(高性能计算)性能提高多达3. 9 倍,基于 CPU 的 AI 加速提高多达3. 8 倍,GPU 主机节点提升多达1. 2 倍

  自 2017 年重回数据中心市场后,AMD 一路势头强劲:其数据中心 CPU 收入市占率在 2018 年还只有2%,今年上半年已攀爬到34%,在全球覆盖超过 950 个云实例和超过 350 个 OxM 平台。

  AMD 是唯一一家能够提供全套 CPU、GPU 和网络解决方案来满足现代数据中心所有需求的公司。

  AI PC 芯片也迎来了新成员——AMD 第三代商用 AI 移动处理器锐龙 AI PRO 300 系列。它被 AMD 称作“为下一代企业级 AI PC 打造的全球最好处理器”。

  一、旗舰 AI 芯片三代同堂:内存容量带宽暴涨,峰值算力冲 9.2PF

  AI 芯片,正成为 AMD 业务增长的重头戏。

  AMD 去年 12 月发布的 Instinct MI300X 加速器,已经成为AMD 历史上增长最快的产品不到两个季度销售额就超过了10 亿美元

  今年 6 月,AMD 公布全新年度 AI GPU 路线图,最新一步便是今日发布的Instinct MI325X。在 7 月公布季度财报时,AMD 董事会主席兼 CEO 苏姿丰博士透露,AMD 预计其今年数据中心 GPU 收入将超过45 亿美元

  微软、OpenAI、Meta、Cohere、Stability AI、Lepton AI(贾扬清创办)、World Labs(李飞飞创办)等公司的很多主流生成式 AI 解决方案均已采用 MI300 系列 AI 芯片。

  微软董事长兼 CEO 萨提亚·纳德拉对 MI300 赞誉有加,称这款 AI 加速器在微软 Azure 工作负载的 GPT-4 推理上提供了领先的价格/性能。

  基于 Llama 3.1 405B 运行对话式 AI、内容生成、AI Agent 及聊天机器人、总结摘要等任务时,MI300 的推理速度最多达到英伟达 H100 的1. 3 倍

  新推出的MI325X进一步抬高性能,跑 Mixtral 8x7B、Mistral 7B、Llama 3.1 70B 等大模型的推理性能,比英伟达 H200 快20%~40%

  MI325X 拥有1530 亿颗晶体管,采用 CDNA 3 架构、256GB HBM3E内存,内存带宽达6TB/s,FP8 峰值性能达到2. 6PFLOPS,FP16 峰值性能达到1. 3PFLOPS

  由 8 张 MI325X 组成的服务器平台有2TB HBM3E内存;内存带宽达到48TB/s;Infinity Fabric 总线带宽为896GB/s;FP8 性能最高达20. 8PFLOPS,FP16 性能最高达10. 4PFLOPS

  相比英伟达 H200 HGX,MI325X 服务器平台在跑 Llama 3.1 405B 时,推理性能可提高40%

  从训练性能来看,单张 MI325X 训练 Llama 2 7B 的速度超过单张 H200,8 张 MI325X 训练 Llama 2 70B 的性能比肩 H200 HGX

  AMD Instinct MI325X 加速器或将于今年第四季度投产,将从明年第一季度起为平台供应商提供。

  下一代MI350系列采用3nm 制程工艺、新一代CDNA 4 架构288GB HBM3E内存,新增对FP4/FP6数据类型的支持,推理性能相比基于 CDNA 3 的加速器有高达35 倍的提升,有望在2025 年下半年上市。

  MI355X加速器的 FP8 和 FP16 性能相比 MI325X 提升了80%,FP16 峰值性能达到2. 3PFLOPS,FP8 峰值性能达到4. 6PFLOPS,FP6 和 FP4 峰值性能达到9. 2PFLOPS

  8 张 MI355X 共有2. 3TBHBM3E内存,内存带宽达到64TB/s,FP16 峰值性能达到18. 5PFLOPS,FP8 峰值性能达到37PFLOPS,新增 FP6 和 FP4 的峰值性能为74PFLOPS

  三代 GPU 的配置显著升级:相比 8 卡 MI300X,8 卡 MI355X 的 AI 峰值算力提升多达7. 4 倍、HBM 内存提高多达1. 5 倍、支持的模型参数量提升幅度接近6 倍

  AMD 持续投资软件和开放生态系统,在AMD ROCm开放软件栈中提供新特性和功能,可原生支持主流 AI 框架及工具,具备开箱即用特性,搭配 AMD Instinct 加速器支持主流生成式 AI 模型及 Hugging Face 上的超过100 万款模型。

  ROCm 6.2 现包括对关键 AI 功能的支持,如 FP8 数据类型、Flash Attention、内核融合等,可将 AI 大模型的推理性能、训练性能分别提升至 ROCm 6.0 的2. 4 倍1. 8 倍

  此前 AMD 收购了欧洲最大的私人 AI 实验室Silo AI,以解决消费级 AI 最后一英里问题,加快 AMD 硬件上 AI 模型的开发和部署。欧洲最快的超级计算机 LUMI 便采用 AMD Instinct 加速器来训练欧洲语言版的大语言模型。

  二、下一代 AI 网络:后端引入业界首款支持 UEC 的 AI 网卡,前端上新 400G 可编程 DPU

  网络是实现最佳系统性能的基础。AI 模型平均有30%的训练周期时间都花在网络等待上。在训练和分布式推理模型中,通信占了40%-75%的时间。

  AI 网络分为前端和后端:前端向 AI 集群提供数据和信息,可编程 DPU 不断发展;后端管理加速器与集群间的数据传输,关键在于获得最大利用率。

  为了有效管理这两个网络,并推动整个系统的性能、可扩展性和效率提升,AMD 今日发布了应用于前端网络的Pensando Salina 400 DPU和应用于后端网络的Pensando Pollara 400 网卡

  Salina 400是 AMD 第三代可编程 DPU,被 AMD 称作“前端网络最佳 DPU”,其性能、带宽和规模均提高至上一代 DPU 的两倍Pollara 400业界首款支持超以太网联盟(UEC)的 AI 网卡。

  Salina 400 支持400G吞吐量,可实现快速数据传输速率,可为数据驱动的 AI 应用优化性能、效率、安全性和可扩展性。

  Pollara 400 采用AMD P4 可编程引擎,支持下一代 RDMA 软件,并以开放的网络生态系统为后盾,对于在后端网络中提供加速器到加速器通信的领先性能、可扩展性和效率至关重要。

  UEC Ready RDMA 支持智能数据包喷发和有序消息传递、避免拥塞、选择性重传和快速损失恢复。这种传输方式的消息完成速度是 RoCEv2 的6 倍,整体完成速度是 RoCEv2 的5 倍

  在后端网络,相比 InfiniBand,以太网 RoCEv2是更好的选择,具有低成本、高度可扩展的优势,可将 TCO 节省超过50%,能够扩展100 万张GPU。而 InfiniBand 至多能扩展48000 张GPU。

  三、服务器 CPU:3/4nm 制程,最多 192 核/384 线程

  今年 7 月公布财报时,苏姿丰提到今年上半年,有超过1/3的企业服务器订单来自首次在其数据中心部署 EPYC 服务器 CPU 的企业。

  第五代 EPYC 处理器 9005 系列(代号“Turin”)专为现代数据中心设计。

  该处理器在计算、内存、IO 与平台、安全四大层面全面升级。

  第五代 EPYC 拥有1500 亿颗晶体管,采用台积电3/4nm 制程、全新“Zen 5”“Zen 5c”核心兼容广泛部署的 SP5 平台,最多支持192 核384 个线程,8~192 核的功耗范畴为155W~500W

  它支持 AVX-512 全宽 512 位数据路径、128 PCIe 5.0/CXL 2.0、DDR5-6400MT/s内存速率,提升频率高达5GHz,机密计算的可信I/O和 FIPS 认证正在进行中。

  与“Zen 4”相比,“Zen 5”核心架构为企业和云计算工作负载提供了提升17%的 IPC(每时钟指令数),为 AI 和 HPC 提供了提升37%的 IPC。

  在 SPEC CPU 2017 基准测试中,192 核 EPYC 9965 的整数吞吐量是 64 核至强 8592+ 的2. 7 倍,32 核 EPYC 9355 的每核心性能是 32 核 6548Y+ 的1. 4 倍

  跑视频转码、商用 App、开源数据库、图像渲染等商用工作负载时,192 核 EPYC 9965 的性能达到 64 核至强 8592+ 性能的3~4 倍

  在处理开源的 HPC 密集线性求解器、建模和仿真任务时,EPYC 9965 的性能可达到至强 8592+ 性能的2. 1~3.9 倍

  达到相同性能,第五代 EPYC 所需的服务器数量更少,有助于降低数据中心的 TCO(总拥有成本)以及节省空间和能源。

  例如,要达到总共 391000 个单位的 SPECrate 2017_int_base 性能得分,相比1000 台搭载英特尔至强铂金 8280 的服务器,现在131 台搭载 AMD EPYC 9965 的现代服务器就能实现,功耗、3 年 TCO 均显著减少

  通过优化的 CPU+GPU 解决方案,AMD EPYC CPU 不仅能处理传统通用目的的计算,而且能胜任 AI 推理,还能作为 AI 主机处理器。

  相比 64 核至强 8592+,192 核 EPYC 9965 在运行机器学习、端到端 AI、相似搜索、大语言模型等工作负载时,推理性能提升多达1. 9~3.8 倍

  AMD EPYC 9005 系列的新产品是 64 核 EPYC 9575F,专为需要终极主机 CPU 能力的 GPU 驱动 AI 解决方案量身定制。

  与竞争对手的 3.8GHz 处理器相比,专用 AI 主机的 CPU EPYC 9575F 提供了高达5GHz的提升,可将 GPU 编排任务的处理速度提高28%

  面向企业级 HPC 工作负载,64 核 EPYC 9575F 的 FEA 仿真和 CFD 仿真&建模的性能,可提升至 64 核至强 8592 的1. 6 倍

  EPYC 9575F 可使用其 5GHz 的最大频率提升来助力 1000 个节点的 AI 集群每秒驱动多达70 万个推理 token。同样搭配 MI300X GPU,与 64 核至强 8592+ 相比,EPYC 9575F 将 GPU 系统训练 Stable Diffusion XL v2 文生图模型的性能提升20%

  搭配 Instinct 系列 GPU 的 AMD EPYC AI 主机 CPU 型号如下:

  同样搭配英伟达 H100,EPYC 9575F 可将 GPU 系统的推理性能、训练性能分别相比至强 8592+ 提升20%15%

  与英伟达 GPU 系统适配的 AMD EPYC AI 主机 CPU 型号如下:

  将 EPYC 用于计算与 AI 混合工作负载时,相比至强铂金 8592+,EPYC 9654+2 张 Instinct MI210 在处理 50% 通用计算 +50% AI 的混合任务时,每美元性能可提升多达2 倍

  四、企业级 AI PC 处理器:升级“Zen 5”架构,AI 算力最高 55TOPS

  AI PC 给企业生产力、身临其境的远程协作、创作与编辑、个人 AI 助理都带来了全新转型体验。

  继今年 6 月推出第三代 AI 移动处理器锐龙 AI 300 系列处理器(代号“Strix Point”)后,今日 AMD 宣布推出锐龙 AI PRO 300 系列

  该处理器专为提高企业生产力而设计,采用4nm 工艺“Zen 5”CPU 架构(最多 12 核、24 个线程)、RDNA 3.5GPU 架构(最多 16 个计算单元),支持Copilot+功能,包括电话会议实时字幕、语言翻译、AI 图像生成等。

  其内置 NPU 可提供50-55TOPS的 AI 处理能力。

  40TOPS是微软 Copilot+ AI PC 的基准要求。相比之下,苹果 M4、AMD 锐龙 PRO 8040 系列、英特尔酷睿 Ultra 100 系列的 NPU 算力分别为 38TOPS、16TOPS、11TOPS。

  与英特尔酷睿 Ultra 7 165H 相比,旗舰锐龙 AI 9 HX PRO 375 的多线程性能提高了40%,办公生产力提高了14%,支持更长续航

  锐龙 AI PRO 300 系列采用AMD PRO技术,提供世界级领先的安全性和可管理性,旨在简化 IT 运营及部署并确保企业获得卓越的投资回报率。

  由搭载锐龙 AI PRO 300 系列的 OEM 系统预计将于今年晚些时候上市。

  AMD 也扩展了其 PRO 技术阵容,具有新的安全性和可管理性功能。配备 AMD PRO 技术的移动商用处理器现有云裸机恢复的标准配置,支持 IT 团队通过云无缝恢复系统,确保平稳和持续的操作;提供一个新的供应链安全功能,实现整个供应链的可追溯性;看门狗定时器,提供额外的检测和恢复过程,为系统提供弹性支持。

  通过 AMD PRO 技术,还能实现额外的基于 AI 的恶意软件检测。这些全新的安全特性利用集成的 NPU 来运行基于 AI 的安全工作负载,不会影响日常性能。

  结语:AMD 正在数据中心市场攻势凶猛

  AMD 正沿着路线图,加速将 AI 基础设施所需的各种高性能 AI 解决方案推向市场,并不断证明它能够提供满足数据中心需求的多元化解决方案。

  AI 已经成为 AMD 战略布局的焦点。今日新发布的 Instinct 加速器、霄龙服务器 CPU、Pensando 网卡&DPU、锐龙 AI PRO 300 系列处理器,与持续增长的开放软件生态系统形成了组合拳,有望进一步增强 AMD 在 AI 基础设施竞赛中的综合竞争力。

  无论是蚕食服务器 CPU 市场,还是新款 AI 芯片半年揽金逾 10 亿美元,都展现出这家老牌芯片巨头在数据中心领域的冲劲。紧锣密鼓的 AI 芯片产品迭代、快速扩张的全栈软硬件版图,都令人愈发期待 AMD 在 AI 计算市场创造出惊喜。