Python逆天改命!开源Hermes首次击败OpenAI Codex

  新智元报道

  一个纯 Python 写的开源项目,竟把 OpenAI 用 Rust 写的王牌给秒了!最终战绩 6 比5,Hermes 直接上演工程暴力美学,解释型语言终于逆天改命。

  一个纯 Python 写的开源项目,竟击溃了 OpenAI 王牌!

  今天,全网都被 Hermes Agent 的硬核实力狠狠刷屏了:

  在针对真实世界 CLI 任务的 11 项基准测试中,它以6:5 的战绩,直接把 Codex 按在地上摩擦。

  在这场备受瞩目的对决中,Hermes Agent 展现出了惊人的底层优化能力。

  通过一连串的硬核操作,成功把系统的启动时间,从 701ms 缩短至 258ms。

  更让人震撼的是,Hermes 完全由 Python 编写,而 Codex 是用 Rust 写的。

  这一仗,Python 打赢了 Rust!

  这在编程界,属是「逆天改命」了。

  三大狠招,砍掉 63% 启动时间

  就在这次优化之前,Hermes 还是5-6 落后的那个。

  这次逆转不是靠换模型、不是靠堆算力,而是靠三个纯工程优化,刀刀见血。

  那么,它是具体如何做到的?

  第一刀:Bitwarden 磁盘缓存

  原来 Hermes 每次启动都会调用 Bitwarden Secrets Manager 的 API 去拉取凭据,一次就是 380 毫秒。

  问题在于,之前的缓存是「纯进程内」,连续执行两次hermes chat -q,第二次还是要重新拉。

  解决方案是,加了一个 L2 磁盘缓存。

  缓存文件权限锁死 0600,存放在 /cache/bws_cache.json ,默认 TTL 300 秒。

  另外,访问 token 本身绝不落盘,默认 300 秒 TTL,过期才重新拉取。

  一刀砍掉 380ms。

  第二刀:模型目录延迟加载

  hermes_cli.models._PROVIDER_MODELS,一个包含所有 AI 供应商模型信息的巨型字典。

  之前在模块加载时就急切导入,吃掉约 55ms。

  实际上只有model_flow相关的处理函数才需要它。

  团队用 PEP 562 的模块级getattr实现了懒加载,只在真正访问模型目录时才付出这笔开销。。

  这一步,又省了 55 毫秒。

  第三刀:配置文件去重

  main.py顶部原本读了两次config.yaml

  一次yaml.safe_load用于密钥脱敏桥接,一次完整的load_config ()(含深度合并)只为检查一个布尔值。

  合并成一次原始加载,省下 17ms。

  这三刀加起来, 启动时间从 701ms 暴降至 258ms,降幅 63%。

  不得不说,这才是真正的工程暴力美学,纯靠 profiling 找到瓶颈,一刀一刀切掉冗余。

  战绩6:5,Hermes 翻盘时刻

  最终结果,是不会说谎的。

  在优化前,Hermes 对 Codex 的总战绩是 5 胜 6 负:单轮任务被 Codex 压制,多轮任务略有优势但不够明显。

  优化后,局面彻底反转。

  单轮任务(8 项):Hermes 的中位框架开销,降到了与 Codex 持平甚至略低的水平。

  原本被 Codex 碾压的启动劣势,被完全抹平。

  多轮任务(3 项):Hermes 在 5 轮对话的总开销上已经领先,优化后优势进一步拉大。

  最后的总分,6:5,Hermes 实现了反超。

  这意味着,一个用 Python 写的开源项目,在框架开销——

  一个最考验底层功力的维度,击败了用 Rust 写的、背后站着万亿市值公司的闭源产品。

  Python,打赢了 Rust

  真正反直觉的部分在于,Python 凭什么赢下 Rust?

  长期以来,Python 在性能圈几乎是「原罪」般的存在:解释型语言、GIL 锁、动态类型开销……

  当 OpenAI 选择用 Rust 构建 Codex CLI 时,所有人都觉得理所当然——

  Rust 生来,就是为性能而生的。

  但 Hermes 的这次逆袭说明了一个关键事实:

  在 Agent 这个赛道上,框架层面的架构决策,比语言层面的原始速度更重要。

  开发者 netrunner 的评论一针见血,「Python 在多轮任务上打赢 Rust,本质上是架构决策的胜利,而不是语言速度的胜利」。

  「Codex 可能在上下文处理上,过度工程化了」。

  还有人问道,「为何不把 Hermes 也迁移到 Rust?那不是更快」?

  Hermes 联创兼首席科学家 Teknium 直言,「那样就无法编辑代码,以及实时改进和迭代」

  也就是说,Python 的优势不在于快,而在于活。

  对于一个需要持续进化、从每次交互中学习的 Agent 来说,开发者友好性和迭代速度,就是最大的性能优势。

  GitHub 冲爆 16.7 万星

  硬刚万亿巨头

  Hermes Agent 的爆发速度,本身就是一组让人瞠目的数据。

  从 2026 年 2 月 25 日上线至今,仅仅三个月,GitHub 星标已经突破 16 万。

  日活 Token 消耗量达到 353B,是同类项目 OpenClaw 的近两倍。

  可以说,它是 2026 年增长最快的开源 Agent 框架,没有之一。

  GitHub 地址:https://github.com/nousresearch/hermes-agent

  Hermes 的核心杀手锏,是一套闭环学习架构:

  每次完成复杂任务后,Agent 会自动将解决方案提炼为可复用的 Skill(技能)。

  下次遇到类似任务,直接调用已有技能,跳过从头推理。

  NousResearch 内部基准测试显示,积累 20 个以上自创技能的 Hermes 实例,完成同类任务的速度比全新实例快 40%。

  更狠的是,v0.12 版本引入的自治 Curator——一个后台自动运行的 Agent,会定期评分、修剪、合并你的技能库。

  换句话说,Hermes 不仅能学,还能自己整理学到的东西。

  语言不是天花板,架构才是

  Python 打赢 Rust 这件事,看起来是一个编程语言之间的「逆袭爽剧」。

  但它真正揭示的东西,要深刻得多。

  在 AI Agent 的世界里,底层语言的性能差异正在变得越来越不重要。

  Hermes 这次优化砍掉的 443 毫秒,已经是框架层能挤出的极限了。而一次 LLM 调用的延迟,动辄几百毫秒甚至数秒。

  这意味着,在通往 ASI 的路上,真正的竞争从来不是「用什么语言写」,而是「怎么让 Agent 越用越聪明」。

  而 Hermes 这次用 Python 干翻 Rust,恰恰证明了——

  在 Agent 进化的赛道上,开放、可编辑、可迭代的架构,比「跑得快」更接近 ASI 的本质。

  Rust 是一把好刀,但 ASI 需要的不是一把更快的刀。

  参考资料:

  https://x.com/Teknium/status/2058885472513065471?s=20

  https://github.com/NousResearch/hermes-agent/pull/31968

  编辑:桃子 David