竞争加剧!报道:亚马逊劝说云客户远离英伟达,改用自家芯片

  与其他云服务提供商一样,亚马逊租用给开发者和企业的服务器主要适用的是英伟达 AI 芯片。然而媒体报道,亚马逊如今正试图说服这些客户转而使用由亚马逊自研 AI 芯片驱动的服务器。

  The Information 报道,亚马逊芯片部门 Annapurna 的业务开发负责人 Gadi Hutt 表示,包括苹果、Databricks、Adobe 和 Anthropic 在内的一些希望找到英伟达芯片替代方案的科技公司,已经在测试亚马逊最新的 AI 芯片,并取得了令人鼓舞的结果。

  Hutt 在亚马逊 AWS 年度客户大会表示:“去年,人们开始意识到,‘嘿,亚马逊在 AI 芯片上的投资是认真的。’本周,更多人相信这是一个真实且持续的投入。”

  分析认为,如果亚马逊能够将客户支出转移到其自研的服务器芯片上,由于这些芯片部分因为耗电量远低于英伟达芯片而对云客户更加便宜,这将提升亚马逊的利润率。此外,这也能阻止英伟达通过直接向企业出租其芯片服务器,抢占更多云市场份额。

  英伟达在 AI 芯片领域的主导地位一直难以撼动,这部分归因于其芯片比包括亚马逊、微软和谷歌在内的竞争对手生产的芯片更强大,同时,软件开发者习惯于使用英伟达专有的 Cuda 编程语言为其芯片编写软件。

  尽管如此,Hutt 和其他亚马逊高管本周表示,大客户正在寻求更便宜的替代方案。AWS CEO Matt Garman 表示,使用亚马逊的 AI 芯片成本比英伟达的旗舰 H100 芯片低 30% 到 40%,但能实现同等性能。

  目前,亚马逊已经在开发传统服务器芯片方面建立了一定的影响力,并成功说服客户租用这些芯片。近年来,AWS 客户越来越多地使用亚马逊的 Graviton 服务器芯片,而不是由英特尔和 AMD 提供芯片的服务器,因为 Graviton 通常性价比更高。

  例如,企业软件公司 Databricks 已经成为 Graviton 的重要客户,其高管 Naveen Rao 表示,计划使用亚马逊的新 AI 芯片以降低运行软件的成本。

  亚马逊开发芯片(包括 AI 芯片 Trainium)的举措是其更广泛战略的一部分,这一战略旨在将计算的“基本构件”——从服务器到云软件——转变为廉价的通用商品。类似地,亚马逊 CEO Andy Jassy 本周宣布了一款由亚马逊打造的新对话式 AI 模型,他表示,其性能与 Anthropic 和 OpenAI 的最新模型相当,但价格却低了三倍以上。

  Hutt 还谈到了公司的新 Trainium 芯片,以及 AWS 正在为 Anthropic 建造的一套超级计算服务器集群。Anthropic 是 OpenAI 的竞争对手,也是 AWS 近年来营收增长的重要贡献者之一,目前是 AWS 上最多使用英伟达服务器的客户之一。

  以下是媒体采访 Gadi Hutt 的对话节选:

  1. 使用 Trainium2(亚马逊芯片的最新版本),为什么你们要专注于把这款芯片卖给那些在英伟达芯片上花费巨大的公司?

  Hutt:那些关注机器学习成本的客户,通常是花费较大的客户,包括苹果、Adobe、Databricks 等,还有一些资金充裕的初创公司,比如 Poolside 和 Anthropic。

  对他们来说,关键指标是“每 1 美元能获得多少性能”。还有许多其他客户,我们称之为“长期客户”,他们有各种项目非常适合我们的芯片。但也许他们每月的花费只有 1000 美元,这种情况下不值得工程师投入时间去探索这种选项。

  实际上,在 Trainium2 生命周期的这个阶段,我并不寻求吸引上百万个客户。就机器学习而言,我们还处于非常早期的阶段。人们还在尝试攻克通用人工智能(AGI)和各种各样的想法,这个领域还在不断演变。

  我们不能从第一天起就支持所有的用例。如果客户尝试运行一些无法正常工作的东西,这会是一种非常糟糕的体验。因此,我们专注于听取最大客户的需求,“嘿,这是我们需要的”,而这往往是对整个市场未来需求的一个很好的预测。

  2. Trainium2 在明年的目标是什么?

  Hutt:当我们部署大量芯片时,我们的目标是确保它们被充分利用。所以我们首先需要与这些大客户合作,然后再扩展到我所说的“长期客户”。对我们这些制造芯片的人来说,成功的衡量标准是确保所有芯片都被充分利用。不管是 10 个客户还是 1000 个客户,数量是次要的。

  这是场马拉松,而不是短跑。随着时间的推移,我们希望看到越来越多的客户。我不会在内部制定目标,规定要启用多少客户。我们更关注的是确保为客户提供合适的工具和性能,采用率自然会随之提高。

  3. 为什么第一代 Trainium 芯片没有成功推广?第二代有什么不同?

  Hutt:首先,这是我们的第一款训练芯片。你可以看看 Trainium1(2022 年发布)与 Graviton1(2019 年发布)的对比,同样的故事。Graviton1 实际上是为了启用整个生态系统,包括软件生态系统,并确保我们为客户构建了正确的产品。

  Trainium1 的客户(包括亚马逊内部的团队)帮助我们强化了软件,但工作仍未完成。在支持更多工作负载方面,我们还有很多工作要做。不过,现在我们可以说,我们对 Trainium2 能够支持的工作负载感到非常满意,包括大型语言模型(LLM)、专家模型、多模态模型以及计算机视觉模型。

  这需要时间,而且很复杂。如果很容易,更多人早就做到了。

  3. AWS 的客户是否在考虑明年选择租用 Trainium2 还是英伟达的 Blackwell 芯片?

  Hutt:客户喜欢有选择的余地。我们的工作是确保我们的芯片即使与英伟达的最新芯片相比,也依然具有吸引力,目前确实如此。

  顺便说一句,我们还没有见到 72 芯片的 Blackwell 系统投入使用,但假设英伟达能够交付,Trainium2 依然会更具成本效益。

  Trainium3(预计 2025 年底发布)的计算能力是 Trainium2 的四倍,因此客户了解我们的发汗路线图。他们有信心认为,这是一个值得投资的方向,否则他们不会选择它。

  4. 你认为英伟达 GPU 的需求是否会发生变化?

  Hutt:有很多客户想使用英伟达芯片,不愿了解 Trainium 芯片。如果你是小型 GPU 消费者,每次稳定使用 10、20、30 甚至 100 个 GPU,没有动力去改变现状。即使每月能省下几千美元,你可能也更愿意让工程师去做别的事情。

  当客户关心成本问题时,通常是在他们开始扩大规模时,但大规模的客户并不多。所以对我们来说,这些芯片是长期投资,以确保我们为客户提供选择。如果客户选择使用它们很好,但如果不选择,我们依然是运行 GPU 的最佳平台。

  我们的软件成熟度会随着时间的推移而提高,希望届时会有更多客户选择使用 Trainium。但 GPU 对我们来说也是一项好业务,我们在卖很多。所以,如果客户希望我们为他们提供 GPU,我们会永远这么做。

  5. 使用 Trainium 芯片是否会提高 AWS 的利润率?

  Hutt:我们不会披露利润率的具体情况,但我们在这些芯片上并没有亏损。业务必须有存在的意义,否则我们不会在这里投资。

  6. 客户何时开始对 Trainium2 感兴趣?

  Hutt:我记得与 Poolside(一家 AI 编码助手初创公司)的第一次会议。当我们向他们展示 Trainium2 的规格时,他们说,“好吧,这正是我们需要的。”

  7. Anthropic 的超级计算机集群项目 Rainier 的耗电量是多少?

  Hutt:我们没有披露具体数据。但我可以告诉你,它比等效的 GPU 效率高 50%。

  8. 超级计算机何时能在 Anthropic 投入使用?

  Hutt:Rainier 项目很快就会完成,我们已经在建造中。他们可以逐步开始使用部分集群,而不需要等到最后一颗芯片上线后再使用。随着集群扩展,他们可以逐步增加使用量。

  9. Anthropic 是否是唯一可以使用 Rainier 项目的公司?

  Hutt:是的,仅供 Anthropic 使用。

  我们正在建设更多的产能,以满足其他客户使用 Trainium 的需求。目前,短期内需求大于供应。所以第一季度将非常紧张,随着产能增加,情况会有所改善。