国思软件 - Python逆天改命！开源Hermes首次击败OpenAI Codex

　　新智元报道

　　一个纯 Python 写的开源项目，竟把 OpenAI 用 Rust 写的王牌给秒了！最终战绩 6 比5，Hermes 直接上演工程暴力美学，解释型语言终于逆天改命。

　　一个纯 Python 写的开源项目，竟击溃了 OpenAI 王牌！

　　今天，全网都被 Hermes Agent 的硬核实力狠狠刷屏了：

　　在针对真实世界 CLI 任务的 11 项基准测试中，它以6:5 的战绩，直接把 Codex 按在地上摩擦。

　　在这场备受瞩目的对决中，Hermes Agent 展现出了惊人的底层优化能力。

　　通过一连串的硬核操作，成功把系统的启动时间，从 701ms 缩短至 258ms。

　　更让人震撼的是，Hermes 完全由 Python 编写，而 Codex 是用 Rust 写的。

　　这一仗，Python 打赢了 Rust！

　　这在编程界，属是「逆天改命」了。

　　三大狠招，砍掉 63% 启动时间

　　就在这次优化之前，Hermes 还是5-6 落后的那个。

　　这次逆转不是靠换模型、不是靠堆算力，而是靠三个纯工程优化，刀刀见血。

　　那么，它是具体如何做到的？

　　第一刀：Bitwarden 磁盘缓存

　　原来 Hermes 每次启动都会调用 Bitwarden Secrets Manager 的 API 去拉取凭据，一次就是 380 毫秒。

　　问题在于，之前的缓存是「纯进程内」，连续执行两次hermes chat -q，第二次还是要重新拉。

　　解决方案是，加了一个 L2 磁盘缓存。

　　缓存文件权限锁死 0600，存放在 /cache/bws_cache.json ，默认 TTL 300 秒。

　　另外，访问 token 本身绝不落盘，默认 300 秒 TTL，过期才重新拉取。

　　一刀砍掉 380ms。

　　第二刀：模型目录延迟加载

　　hermes_cli.models._PROVIDER_MODELS，一个包含所有 AI 供应商模型信息的巨型字典。

　　之前在模块加载时就急切导入，吃掉约 55ms。

　　实际上只有model_flow相关的处理函数才需要它。

　　团队用 PEP 562 的模块级getattr实现了懒加载，只在真正访问模型目录时才付出这笔开销。。

　　这一步，又省了 55 毫秒。

　　第三刀：配置文件去重

　　main.py顶部原本读了两次config.yaml。

　　一次yaml.safe_load用于密钥脱敏桥接，一次完整的load_config ()（含深度合并）只为检查一个布尔值。

　　合并成一次原始加载，省下 17ms。

　　这三刀加起来，启动时间从 701ms 暴降至 258ms，降幅 63%。

　　不得不说，这才是真正的工程暴力美学，纯靠 profiling 找到瓶颈，一刀一刀切掉冗余。

　　战绩6:5，Hermes 翻盘时刻

　　最终结果，是不会说谎的。

　　在优化前，Hermes 对 Codex 的总战绩是 5 胜 6 负：单轮任务被 Codex 压制，多轮任务略有优势但不够明显。

　　优化后，局面彻底反转。

　　单轮任务（8 项）：Hermes 的中位框架开销，降到了与 Codex 持平甚至略低的水平。

　　原本被 Codex 碾压的启动劣势，被完全抹平。

　　多轮任务（3 项）：Hermes 在 5 轮对话的总开销上已经领先，优化后优势进一步拉大。

　　最后的总分，6:5，Hermes 实现了反超。

　　这意味着，一个用 Python 写的开源项目，在框架开销——

　　一个最考验底层功力的维度，击败了用 Rust 写的、背后站着万亿市值公司的闭源产品。

　　Python，打赢了 Rust

　　真正反直觉的部分在于，Python 凭什么赢下 Rust？

　　长期以来，Python 在性能圈几乎是「原罪」般的存在：解释型语言、GIL 锁、动态类型开销……

　　当 OpenAI 选择用 Rust 构建 Codex CLI 时，所有人都觉得理所当然——

　　Rust 生来，就是为性能而生的。

　　但 Hermes 的这次逆袭说明了一个关键事实：

　　在 Agent 这个赛道上，框架层面的架构决策，比语言层面的原始速度更重要。

　　开发者 netrunner 的评论一针见血，「Python 在多轮任务上打赢 Rust，本质上是架构决策的胜利，而不是语言速度的胜利」。

　　「Codex 可能在上下文处理上，过度工程化了」。

　　还有人问道，「为何不把 Hermes 也迁移到 Rust？那不是更快」？

　　Hermes 联创兼首席科学家 Teknium 直言，「那样就无法编辑代码，以及实时改进和迭代」

　　也就是说，Python 的优势不在于快，而在于活。

　　对于一个需要持续进化、从每次交互中学习的 Agent 来说，开发者友好性和迭代速度，就是最大的性能优势。

　　GitHub 冲爆 16.7 万星

　　硬刚万亿巨头

　　Hermes Agent 的爆发速度，本身就是一组让人瞠目的数据。

　　从 2026 年 2 月 25 日上线至今，仅仅三个月，GitHub 星标已经突破 16 万。

　　日活 Token 消耗量达到 353B，是同类项目 OpenClaw 的近两倍。

　　可以说，它是 2026 年增长最快的开源 Agent 框架，没有之一。

　　GitHub 地址：https://github.com/nousresearch/hermes-agent

　　Hermes 的核心杀手锏，是一套闭环学习架构：

　　每次完成复杂任务后，Agent 会自动将解决方案提炼为可复用的 Skill（技能）。

　　下次遇到类似任务，直接调用已有技能，跳过从头推理。

　　NousResearch 内部基准测试显示，积累 20 个以上自创技能的 Hermes 实例，完成同类任务的速度比全新实例快 40%。

　　更狠的是，v0.12 版本引入的自治 Curator——一个后台自动运行的 Agent，会定期评分、修剪、合并你的技能库。

　　换句话说，Hermes 不仅能学，还能自己整理学到的东西。

　　语言不是天花板，架构才是

　　Python 打赢 Rust 这件事，看起来是一个编程语言之间的「逆袭爽剧」。

　　但它真正揭示的东西，要深刻得多。

　　在 AI Agent 的世界里，底层语言的性能差异正在变得越来越不重要。

　　Hermes 这次优化砍掉的 443 毫秒，已经是框架层能挤出的极限了。而一次 LLM 调用的延迟，动辄几百毫秒甚至数秒。

　　这意味着，在通往 ASI 的路上，真正的竞争从来不是「用什么语言写」，而是「怎么让 Agent 越用越聪明」。

　　而 Hermes 这次用 Python 干翻 Rust，恰恰证明了——

　　在 Agent 进化的赛道上，开放、可编辑、可迭代的架构，比「跑得快」更接近 ASI 的本质。

　　Rust 是一把好刀，但 ASI 需要的不是一把更快的刀。

　　参考资料：

　　https://x.com/Teknium/status/2058885472513065471?s=20

　　https://github.com/NousResearch/hermes-agent/pull/31968

　　编辑：桃子 David

Python逆天改命！开源Hermes首次击败OpenAI Codex

我们的产品

相关链接

关于我们

联系我们