英特尔:CPU的痛就像送外卖

  金磊发自凹非寺

  量子位 | 公众号 QbitAI

  英特尔,真是越来越会玩了——因为它把优化 CPU 这件事的痛点,直接搞得像送外卖似的:

  △英特尔市场部同学友情出演

  视频地址:

  https://mp.weixin.qq.com/s/chZie2A11mX75ixQvWOaWw

  在这个有趣的视频中,我们看到了“CPU 的痛点”和“送外卖”之间的联系:

  • 外卖送错:缓存未命中,送错了就白跑;
  • 用“猜”的方式送餐:分支预测失败,先猜一步,猜错就得重来;
  • 等餐超时:前端阻塞,不是我慢,是前面环节没跟上;
  • 爬楼梯送餐:微架构热点,不是没路可走,是都堵在一条路上。

  形象是归形象,但,何以解“优”?

  芯片老玩家英特尔给出的,是自己发明的一项技术——二进制优化(IBOT)。

  简单来说,IBOT 采用了一种在内存内动态优化代码的方式,动态去扫描 CPU 程序的核心卡点,然后通过指令替换的方式把那些产生卡点的指令替换成解决性能卡点的指令,从而提升整体性能。

  更直观一点的,用没用 IBOT 的 CPU,就像下面的俄罗斯方块:

  左边是没有经过优化的处理器的运行情况,可以看到很多不规则的形状堆砌起来之后产生很多的空隙区,称之为“CPU 运行气泡”,在每个气泡中 CPU 其实在空转,不能产生实际运行效果。

  右边就是重新码整齐之后的俄罗斯方块,它把很多气泡挤了出来,让空隙区更少,CPU 执行效率会更高。

  如此优化,到底有什么直接的作用呢?

  答案是,和你用笔记本打游戏,息息相关。

  CPU 升级,还发了个 AI 高静本 Plus

  除了 IBOT 在软件层面上进行优化之外,这次英特尔在硬件上也有一个升级动作——

  英特尔® 酷睿™ Ultra 200HX Plus。

  在架构层面上,本次 200HX Plus 重点强化Uncore游戏性能,通过提升晶粒间(D2D)频率 900MHz 至 3GHz,突破 Arrow Lake 多 Chiplet 架构通信瓶颈。

  这使得游戏平均帧率更高,1% Low 帧率表现更稳定,确保游戏画面更丝滑、运行更流畅。

  而我们刚才提到的 IBOT,以《永劫无间》为例,游戏性能直接提升了19%

  更直接的,英特尔基于架构和软件层面的优化,让游戏本的体验也更上了一层楼。

  首先是性能方面,现在你的游戏本,即便开启的是高静模式,游戏体验和性能也和开启狂暴模式无异。

  在现场,左右两台笔记本在玩《黑神话悟空》时体感几乎看不出来差异的情况下,散热发出的声音完全是两个 level:

  △左:高静模式;右:狂暴模式。

  视频地址:

  https://mp.weixin.qq.com/s/chZie2A11mX75ixQvWOaWw

  在听感方面,AI 高静游戏本 Plus 的噪音标准进一步压低到 43dB 以下,让游戏本在杂乱的环境下也能有很好的体验。

  同样是在现场,英特尔便展示了 43dB 和 50 多 dB 情况下体感的差异,来感受一下这个 feel:

  视频地址:

  https://mp.weixin.qq.com/s/chZie2A11mX75ixQvWOaWw

  除此之外,触感也是影响游戏体验的一大关键,因为有些游戏本玩着玩着就会出现键盘发烫的情况。

  但在 AI 高静游戏本 Plus 这里,掌托等核心接触区温度是可以长时间控制在 40°C以下的。

  视频地址:

  https://mp.weixin.qq.com/s/chZie2A11mX75ixQvWOaWw

  可以看到,红外枪展示扫出来的核心接触器,温度都控制下来了;而 45°C以上区域,甚至是可以把三文鱼的表皮给热熟的……

  并且在续航方面,AI 高静游戏本 Plus 现在可以续航时间提升至 7 小时以上!

  因此整体来看,通过从底层 CPU 架构和软件的优化,英特尔已经把游戏体验这事拔到了一个新高度。

  英特尔 DCG 老大:Agentic AI 让 CPU 重回舞台中央

  英特尔除了在酷睿有新动作之外,这几天数据中心方面,亦是如此——

  去年新上任的英特尔公司执行副总裁兼数据中心事业部(DCG)总经理,Kevork Kechichian(下文简称 KK),来北京了!

  △Kevork Kechichian

  量子位有幸和 KK,从 Agentic AI、产品与路线、竞争、生态、组织文化、供应链等方面进行了一场深度对话。

  上任仅 9 个月,KK 给出的英特尔数据中心转型答案,和酷睿 Ultra 200HX Plus 的优化逻辑如出一辙:挤掉算力气泡,拒绝纸面参数,用真实落地解决行业痛点。

  Agentic AI 时代,CPU 正在强势回归

  眼下大模型行业最火的概念莫过于 Agentic AI。当行业从单纯的对话推理,走向需要 Agent 去真正执行复杂任务、提升生产力时,算力的需求结构也发生了微妙的变化。

  KK 在交流中直言不讳地表示这对英特尔来说是一个极其利好的转变。

  他指出,在早期的基础模型推理中,CPU 与 GPU 的占比很低。但随着 Agentic AI 的爆发,一个调度核心可能需要触发成百上千个 Agent,无论是串行还是并行处理,都需要强大的调度与编排能力,因此,CPU 的使用率正在成倍激增。

  KK 还预测说:我的预测是,未来 CPU 与 GPU 的比例将达到1:1。

  在这种趋势下,英特尔在数据中心领域积累了近三十年的企业级工作负载经验,瞬间成为了最核心的护城河。面对 Agentic AI 流水线,英特尔的思路非常明确:

  针对小于 1000 亿参数的模型,直接利用至强(Xeon)内置的 AMX 等向量引擎就能高效搞定,根本不需要昂贵的独立加速器;而对于更大规模的模型,英特尔也在积极规划多层级的 GPU 和其他 AI 加速器产品线。

  在这个过程中,英特尔吸取了过去“硬件很强但软件难用”的教训。现在的首要任务是对开发者绝对友好。不用再让几百个工程师花半年时间去适配框架,英特尔的底层库已经做好了准备,让算力的部署变得几乎透明。

  上任 9 个月的“杀伐果断”

  算力底座的逻辑理顺了,但如何保证英特尔这头大象能轻快起舞?这就要谈到 KK 上任这 9 个月以来的硬核操作了。

当我刚接手时,团队告诉我有很多决策卡点。我的第一反应是,这些烂摊子不能留。

  KK 的动作堪称雷厉风行。在上任不到 60 天的时间里,他直接砍掉了 3 个备受业界关注的平台项目。原因很简单:

  在研判了路线图和竞争力后,KK 发现这些产品如果能提前 6 个季度发布会是好产品,但放在当前的节点,它们已经失去了时间上的竞争力。与其让合作伙伴投入数亿美元去陪跑一个没有竞争力的平台,不如快刀斩乱麻。

  砍掉旧项目的同时,KK 对现有的路线图按下了加速键,将下一代产品的进度提前了 1 到 2 个季度。

  同时,他把目光死死盯住了优化二字。

  当客户反馈在竞品平台上跑出的数据更好时,KK 立刻调动软件团队,跑到客户的真实业务环境里去做针对性优化。

不要总去描绘未来,先把现有的解决方案优化到极致,这是我们目前战略的基石。

  谈竞争与生态

  如今的数据中心市场可谓群狼环伺,英伟达和 Arm 都在大举进军 CPU 领域。面对多出来的竞争对手,KK 显得非常从容,甚至觉得这是一种赞美。KK 一针见血地指出:

大家都开始做类似至强的架构,说明我们坚持了三十年的方向是对的。

  英特尔的核心优势在于几十年积累的软件层和基础设施经验。数据中心追求的是极限的稳定性和正常运行时间(Uptime),英特尔的系统是在成千上万个节点的真实业务数据中打磨出来的,而很多跨界的新玩家,目前还只能依赖于合成数据进行测试。

  在谈及和谷歌的合作时,KK 也重申了这一点:谷歌在 TPU 上取得了巨大成功,但他们依然选择加深与英特尔的合作,定制化 IPU,这本身就是对英特尔 x86 架构作为数据中心基石地位的再次印证。

  而在推理时代,芯片公司最深的护城河到底是什么?

  KK 给出的答案非常务实:无缝部署的能力。

当你建好数据中心,按下开关的那一刻,客户能不能立刻开始产生效益?如果我有一个 4000 亿参数的模型,换上新硬件后,能不能在 24 小时内跑通所有优化库?这才是真正的护城河。

  并且 KK 给整个生态吃下了一颗定心丸:“虽然我们在提供系统级的解决方案,但英特尔永远不会与我们的客户竞争。这是底线。”

  找回工程师文化

  面对外界“英特尔需要重拾伟大工程师文化”的呼声,本身就是技术背景出身的 KK 给出了他的三剂良药:

  1. 顶层架构师的视野:确保资深的技术大牛(Fellow 和架构师)来定义必须要做的事。
  2. 极度的紧迫感:产品不仅要在功能上对齐,在价格和上市时间上必须做到极致的“按时交付”。
  3. 消灭多任务:这是 KK 带来的最大改变之一。“没有人能真正做到多任务处理,那只会浪费时间和焦点。”现在,英特尔内部的项目,都必须由一群“除了这个项目什么都不用想”的人来专职推进。

  KK 在交流的最后坦言:

我可以坐在这里跟你聊上几个小时的战略和技术,但真正的证明,只能是我们把产品实打实地交付出来。

  正如英特尔内部现在最明确的口号:2026 年,是交付之年(Year of Delivery)。