9 月 4 日消息,全球顶尖的人工智能开发商对其最先进的技术一向保密,而对于开发这些技术所需的专业数据中心,他们则更加讳莫如深。
据美国科技媒体《The Information》披露,美国七个州有 17 个已建成或规划中的人工智能数据中心,这些数据中心有时被称为超级计算机或人工智能芯片集群。目前,这些超级计算数据中心或已投入运营,或正由微软、OpenAI、Meta 及埃隆·马斯克(Elon Musk)旗下的 xAI 等公司筹备中。
总的来看,这些数据中心的建设与规划总投资预计将超过 500 亿美元,其中包括英伟达提供的价值近 350 亿美元的人工智能服务器芯片,以及庞大的运营成本。值得注意的是,某些更具前瞻性的项目,如微软与 OpenAI 探讨的、价值高达 1000 亿美元的超级计算机,尚未列入上述统计中,因为这些项目仍处于理论构想阶段,尚无明确的发展计划。
这些公司基本上都在追求同一个目标,即实现超级智能,以期解决核聚变、全球变暖乃至人类星际殖民等重大挑战。他们构想中的超级计算机规模空前,坚信计算能力的飞跃将赋予人工智能前所未有的超凡能力。
DataBank 首席执行官劳尔·马蒂内克(Raul Martynek)指出:“这一追求直接关联到对更多人工智能服务器芯片、更多电力以及更大数据中心容量的渴求。”DataBank 正在为参与人工智能竞赛的顶尖云服务提供商建设数据中心。
在美国,部署这些超级计算机项目不仅耗时良久,还面临芯片、土地和电力资源短缺的巨大挑战。美国能源部已意识到潜在的电力供应不足问题,并正积极探索解决方案,如资助研发以提升人工智能计算效率的技术。
当前讨论中的数据中心规模史无前例。在 ChatGPT 引发的生成式人工智能热潮之前,英伟达的芯片集群规模通常仅限于数千颗 GPU 芯片。然而,如今的顶尖集群已突破三万颗芯片大关,这些芯片相互连接和通信,就像它们是同一台计算机的一部分。明年,多家公司计划推出搭载十万颗芯片的超大规模计算集群。
与传统芯片相比,GPU 的能耗显著增加,一个容纳十万颗 GPU 的集群预计将消耗高达 100 兆瓦的电力。这种耗电量是传统数据中心的十倍之多,足以供 7 万至 10 万户家庭的日常用电。
微软与 OpenAI 曾构想打造一台价值千亿美元的超级计算机,分别以“星门”(Stargate,OpenAI 的代号)和“水星”(Mercury,微软的代号)命名。这台超级计算机预计将集成数百万颗 GPU,其电力需求高达数吉瓦(1 吉瓦等于 1 百万千瓦)。然而,这一壮举面临重重技术挑战,包括如何实现芯片间的高效互联,以及确保充足的电力供应。
据知情人士透露,由于项目融资路径尚不明朗,微软与 OpenAI 或将分别独立探索这一宏伟计划的实施路径。
奔向“下一个高原”
英伟达首席执行官黄仁勋在这场数据中心竞赛中占据核心地位,他的言论进一步加剧了市场竞争的白热化。他近期向分析师表示:“率先抵达下一个超级计算集群平台者,将引领人工智能领域的革命。”
连谷歌也加入了这场竞争。尽管谷歌采用的是与博通联合设计的张量处理单元(TPU)芯片,但仍然对英伟达即将发布的 Blackwell 芯片下了大额订单。
GPU 的激烈竞争不仅加剧了主要人工智能开发商与云提供商之间的紧张关系,有时也波及到英伟达内部。例如,马斯克曾考虑与甲骨文签署一项巨额协议。根据该协议,他的人工智能公司 xAI 将在未来几年内斥资 100 亿美元租用英伟达的 GPU。谈判最终破裂,部分原因是马斯克对甲骨文构建超级计算机的速度不满,而甲骨文则担忧马斯克计划部署 GPU 集群的地点电力供应不足。
尽管如此,马斯克宣布 xAI 已在田纳西州孟菲斯建成一个包含十万颗英伟达 H100 GPU 的计算集群,该芯片是业界顶尖的通用解决方案之一。
马斯克周一在一篇帖子中表示,这个名为“巨人”(Colossus)的十万颗芯片集群已经启动并运行,它是“世界上最强大的人工智能训练系统”。然而,据两位熟知 xAI 芯片订单及工厂产能的知情人士透露,目前实际运行的芯片数量尚不足总数的一半,主要受限于电力或网络设备。
无论马斯克的表述是否夸大,其言论已在人工智能巨头之间引起轩然大波,各开发商纷纷担忧被赶超。据知情人士透露,OpenAI 首席执行官萨姆·奥特曼(Sam Altman)曾向微软高层表达过类似担忧,认为 xAI 很快将拥有比 OpenAI 更多的计算能力。这或许正是他积极推动开发新型人工智能芯片的原因之一。
更多芯片,更多问题
为了最大限度地提高 GPU 在训练新人工智能方面的效率,开发人员正在尝试在单个数据中心或同一区域的多个数据中心部署大型 GPU 集群。
然而,构建以 GPU 为核心的数据中心仍然是新兴领域,面临诸多挑战。Digital Realty 首席技术官克里斯·夏普(Chris Sharp)指出,构建大型 GPU 集群的一个挑战是连接 GPU 的网络设备能力有限,因为这些设备并非为大型集群设计的。Digital Realty 是一家数据中心的所有者,其客户包括主要的云服务提供商。
夏普补充道:“鉴于现有的技术制约,我们必须重新思考设计参数,以确保能够顺利构建并运行包含 55,000 颗乃至更多 GPU 的超大规模集群。”
此外,热量管理问题也不容忽视。传统数据中心依赖空气冷却,但 GPU 服务器产生的热量远超传统设备,行业必须寻求更高效的解决方案。微软在威斯康辛州芒特普莱森特为 OpenAI 建设的数据中心,计划采用水冷技术替代空气冷却,以应对 GPU 产生的高热量。
超级计算机先锋
据知情人士透露,2019 年左右,微软在爱荷华州为 OpenAI 建造了两台 GPU 超级计算机,这是两家公司达成首次商业合作伙伴关系后的一部分。目前,其中一台已退役,而另一台则持续助力 OpenAI 训练其旗舰大语言模型 GPT-4,并且仍在运行。
近年来,微软在凤凰城的数据中心规模持续扩大,并同步推进威斯康辛州与亚特兰大地区的超级计算机建设项目。尽管地理位置相隔甚远,这两地的集群将协同工作,共同服务于新模型的训练任务。
据内部人士透露,威斯康辛州设施全面竣工后,总投资可能达到 100 亿美元,但预计从明年下半年起,部分设施将率先投入运营。
1250 亿美元巨额项目
许多顶尖 GPU 集群选址于电力充沛、数据中心资源丰富的地区,如凤凰城,吸引了亚马逊、Meta 及微软等巨头在此部署人工智能服务器。然而,随着集群规模的扩展和电力需求的增加,这些公司开始将目光投向传统数据中心枢纽之外的新区域。
亚马逊就是一个典型例子。该公司在宾夕法尼亚州中部核电站附近购地,计划建设一座电力容量高达 1 千兆瓦的数据中心,其供电能力足以媲美奥斯汀或旧金山等城市,或支持构建一个容纳 100 万颗 GPU 的庞大集群。
与此同时,北达科他州也成为焦点。该州商务专员乔希·泰根(Josh Teigen)透露,两大全球顶尖人工智能开发商正在与该州政府接触,探讨建设超级人工智能数据中心的可行性。初期规划电力需求在 500 至 1000 兆瓦之间,并计划在未来几年内扩展至 5 至 10 吉瓦。
这些拟建项目规模空前,远超当前任何数据中心,凸显了人工智能发展对电力和空间资源的巨大需求。以微软 Azure 为例,其全球数据中心去年底的总耗电量接近 5 吉瓦。
泰根透露,每个超级计算项目的造价可能飙升至 1250 亿美元以上。尽管他没有点名参与讨论的公司,但指出这些公司均为市值“万亿美元”级别的巨头。这把名单缩小到了美国的六大企业:英伟达、亚马逊、微软、谷歌、Meta 和苹果。虽然特斯拉也在开发人工智能,且曾达到万亿美元市值,但目前其市值约为 7000 亿美元。
微软由于与 OpenAI 探讨的千亿美元超级计算机计划而备受瞩目,成为潜在的有力竞争者。同时,北达科他州州长伯格姆曾是微软高管,他在 2001 年以 11 亿美元的价格将一家公司卖给了这家科技巨头。此外,谷歌和亚马逊等公司也在积极扩展其人工智能计算能力。
泰根表示,过去六周内,“多家企业的代表”已到访北达科他州,在雄厚资金支持下,项目推进速度非常快。他强调:“讨论正处于加速阶段”,并确信自己正与“最积极推动这一项目的公司”进行实质性谈判。
泰根急切呼吁州内官员迅速采取行动,简化土地重新划分流程并促进与电力公司的合作,以吸引人工智能数据中心项目落户北达科他州,否则恐错失“千载难逢”的发展机遇。他警告道:“若我们行动迟缓,得州、俄克拉荷马州乃至其他州将抢占先机,而我们则将错失经济飞跃的良机,无法实现真正的多元化与韧性增长。”
数据中心行业的专家长期以来对北达科他州保持高度关注,因为该州是美国少数能源产出大于消耗的州之一,具有独特优势。据美国能源情报署数据显示,北达科他州在原油生产方面位列全美第三,仅次于得克萨斯州和新墨西哥州,这为数据中心项目提供了坚实的能源保障。(小小)