英特尔新款游戏显卡卖爆!24G大显存版也在路上了

  梦晨金磊发自凹非寺

  量子位公众号 QbitAI

  着实有点 Amazing 啊。

  这两天GPU圈子发生了个事儿,被网友们讨论地津津乐道——有一款显卡卖爆了

  火到什么程度呢?就是一进货就被抢光。

  GPU 供不应求其实已经司空见惯了,但之所以这次能被热议起来,是因为这款产品背后的厂家。

  不是你以为的英伟达、AMD,而是……英特尔

  为什么会如此?

  从玩家们的讨论中不难得出答案——性价比够高,2000 元价位就能在 2K 画质下畅玩 3A 游戏。

  The Verge 也非常“直给”地给予了一句评价:

英特尔终于在 GPU 上拿下了一次胜利。

  而这款显卡,正是英特尔不久前发布的第二代 Arc B580,售价仅249 美元

  要知道,英伟达 299 美元的 RTX 4060 和 AMD269 美元的 RX 7600,仅配备了 8GB 的 VRAM。

  但英特尔的 Arc B580 不仅价格比它们低,还配备了12GB 的 VRAM和 192bit 的显存位宽。

  即使是价格更低的 Arc B570(219 美元,下个月上市)也配备了 10GB 的 VRAM。

  除此之外,还有一个更有意思的事情。

  虽然 Arc 是游戏显卡,但毕竟是 GPU 啊,于是……也有一部分人买来开始搞 AI了。而这,可能会让它未来的销售再增三分热度。

  这不,有人在 Reddit 上就分享了怎么在 Arc B580 上搞 AI 画图 Comfy UI 了:

  不仅是个人用户的尝鲜,我们还打听到有些企业已经着手把英特尔的显卡塞进包括工作站和服务器在内的商用计算设备中了,具体搭配的“食谱”就是:英特尔至强系列 CPU+Arc 显卡

  不过暂时用的还是英特尔上一代的A770,作为上一代的旗舰型号,A770 有着 16G 大显存,用在 AI 推理上,也算游刃有余。

  据可靠的消息,如此组合最为抢眼的优势,同样是“性价比”三字。

  而由此引发的,更值得讨论的一个话题应当是:

  消费级显卡搞 AI,到底行不行?

  首先可以看出来,无论个人还是企业,买英特尔消费级显卡来搞 AI,基本都是来做AI 推理的。

  实际上,推理算力需求正在飞速增长,大有超过训练算力需求之势。

  一方面,随着行业热议的“预训练 Scaling Law 撞墙”了,像 OpenAI o1/o3 系列模型也开始依靠增加推理算力提高模型能力。

  另一方面,AI 应用落地的爆发也使得推理需求大幅增长,这些需求往往不强求算力的溢出甚至极致,即所谓硬需求不高,而是更加注重实现够用的性能(包括并发度和时延),以及与之同步的易获取、易部署、易使用和成本上是否够实惠。

  那么做 AI 推理为什么选择英特尔游戏显卡?正如前面分析,性价比肯定是一大考虑因素。

  从硬件方面讲,即使是顶级的算力卡,单卡做 AI 推理在面对高并发等场景时,显存也会成为瓶颈,但升级到四卡、八卡成本又会飙升。此时,英特尔 A770 这种 2000 元价位就有 16G 大显存的型号,就成了兼顾性能与成本之选。

  从应用方面讲,很多场景其实对每秒 token 生成速度要求并不高,特别是有流式传输等优化手段,只要 first token latency 到位了,后面生成速度满足一定要求,体验就很好。

  这是我们拿到的 4 张英特尔 Arc A770 显卡跑 Qwen2.5 32B 模型的演示 Demo,来感受一下这个速度,是不是足够了?

  视频地址:https://mp.weixin.qq.com/s/f9deca3boe7D0BwfVPZypA?token=477202505&lang=zh_CN

  看到这里可能有人要问了,用英特尔显卡跑 AI,CUDA 的问题怎么解决?

  拿最流行的大模型推理框架之一vLLM来说,得益于开源软件的发展,其早已实现了高级别的抽象和封装,其实换用哪种硬件,用起来都没差太多。

  再加上英特尔自己提供的开源oneAPI,就能做到很低的迁移成本。

  可能还有人要问了,那为什么不选专用 AI 推理加速器,比如风头正盛的 Groq、Sambanova 这些?

  这就要说到,多模态交互是现在 AI 应用的一大趋势,无论是与 AI 视频对话、数字人,还是直播、短视频场景的一些应用,都同时会用到视频解码或图形渲染能力,这就非得是通用 GPU不可。

  专用加速器虽然在特定任务上有优势,但在处理多样化需求时,通用 GPU 更具灵活性。

  所以总结来看,用英特尔显卡搞 AI 推理,算力够用,大显存还有,可行性就有了,性价比也有了,对于现有业务来说,迁移成本更是理想。

  后面能拿下多大市场,会不会成为一个趋势,就拭目以待了。

  英特尔的曲线突围

  英特尔消费级显卡被企业拿去搞 AI 推理了,英特尔自己是什么态度?

  那肯定是乐见其成的,而且相当重视。

  其实,英特尔在两年前刚推出 Arc 系列时就采取与友商不同的策略,许可证方面明确不限制数据中心使用

  为了方便大家用好 AI,英特尔的软件团队一直没闲着,除了更新 oneAPI,还在持续推出和更新一系列开源工具,吸粉不断。

  例如加速库 IPEX-LLM,可用于大模型的推理和微调,在 GitHub 上已经有 6.8k star。

  以及低比特量化工具 neural-compressor,也获得 2.3k star。

  从 IPEX-LLM 也可以看出英特尔对中国市场的重视,针对中国主流的开源大模型 ChatGLM、Qwen、MiniCPM 等都提供了适配,中文文档和教程也做的比较完善。

  为了方便大家选择模型,英特尔还在 HuggingFace 上维护了一个低比特量化模型的排行榜,设置好条件,就可以一键比较并筛选出自己需要的模型。

  其中性能排名靠前的,不乏英特尔自己动手量化的开源社区优秀模型。

  这么看下来,英特尔为 AI 开源社区做的众多贡献,给企业和开发者提供了便利,也是现在大家愿意尝试英特尔显卡的原因之一。

  最后,我们还打听到一个内幕消息:

  英特尔看到 AI 推理这个市场需求逐渐扩大后,在后续产品策略上也有所调整。

  2025 年,英特尔准备推出 Battlemage 系列显卡的更大显存版本,其容量将增至 24G

  以后就是现有版本继续服务于游戏等消费级市场,24G 的更大显存版本瞄准“生产力市场”

  “生产力市场”的目标用户涵盖了数据中心、边缘机房、教育科研和个人开发者等。

  拥有更大显存的英特尔显卡,不仅可在 AI 推理需求上,也能在渲染和视频编解码应用上做到比专业图形卡、工作站显卡性价比更高。

  还真别说,“从游戏人间转向打工赚钱”+“算力够用、显存保大”,很有可能会成为英特尔 GPU 突围的一招妙棋。

  参考链接:  

  1. https://www.reddit.com/r/pcgaming/comments/1hh2dvn/intel_finally_notches_a_gpu_win_confirms_arc_b580/
  2. https://www.techspot.com/news/105810-intel-launches-new-arc-battlemage-b580-b570-gaming.html
  3. videocardz.com/newz/intel-will-not-prohibit-gaming-arc-gpu-use-in-data-centers
  4. https://github.com/intel-analytics/ipex-llm
  5. https://github.com/intel/neural-compressor
  6. https://huggingface.co/spaces/Intel/low_bit_open_llm_leaderboard