Hermes首度直播回应「抄袭」,MiniMax提前杀入Harness赛点

  新智元报道

  编辑:好困犀牛

  跑分最高未必能赢,但最懂 Harness 的可以。如今,被 Hermes、OpenClaw 等全球爆火开源 Agent 项目「钦定」为默认的 MiniMax,在 OpenRouter 上的日均 Token 消耗已飙到 3000 亿。

  昨晚B站,一个老外用四个字炸了弹幕区。

  不熟,勿 Cue。

  说这话的人是 Tommy Eastman,全球最火开源 Agent 项目 Hermes Agent 的业务负责人。

  首次来中国就被弹幕逼问「你们是不是抄了 EvoMap」。

  他的回应原话是这样的:

  Hermes Agent 的代码仓库已经存在一年多了。直到那些推文出现,我才听说 Evo Map。

  Nous Research 有长期产出前沿研究的记录,我们是理念驱动的团队,除了推动开源 AI,不会做任何其他事情。

  当然,也不会去抄别人的仓库然后据为己有。

  和 Tommy 同框的,是 MiniMax Agent 首席架构师阿岛和研发工程师择因。

  争议三分钟就翻篇了,但接下来两个多小时的技术对谈,触及了一个被忽视已久的问题。

  当模型能力趋于收敛,AI 的下一个竞争维度在哪里?

  人类成了瓶颈

  现在,阿岛的工作方式已经变了。

  去年九十月份,他已经不怎么打开 IDE 了。日常工作状态是同时并发五六个本地 Agent,云端可能还有十个在沙箱里跑。

  然后我发现,人类成了瓶颈。

  过去几年,AI 行业习惯了谁的模型参数更多、跑分更高的叙事。

  但 2026 年初,OpenClaw 一夜爆火,连老黄都在摩根士丹利的论坛上感叹这可能是有史以来最重要的软件。

  所有人突然意识到,模型再强,不会用工具、不能真正干活,就只是一个聊天机器人。

  一夜之间,行业焦点转向了 Harness。

  Harness 是 Agent 的运行框架,包括工具调用编排、记忆管理、Skills 系统、沙箱环境等等。

  在那篇全网疯转的博客「Harness Engineering」中,OpenAI 给出了一个清晰的定义—人类掌舵,智能体执行。

  对此,阿岛用高达做了个比喻。

  模型是引擎,Harness 就是那副机甲。但光有引擎造不出高达,还得有完整的外骨骼才能让引擎能力最大化。

  Claude Code 过去两个月的更新都在龙虾化。cron 定时、连接 IM、远程控制、memory 文件夹……我 1 月初注意到 OpenClaw 时惊为天人,当时团队还不认同。后来证明方向是对的。

  行业在收敛到同一个方向上。

  而阿岛自己的感受比这更深一层。

  我觉得我就是在被 AI 蒸馏。工程师构建 Harness 的过程,就是把自己的工作方式蒸馏成 Skill 和代码。

  随后他补充道,「当然,这一切的目的是让人类去做真正热爱的事情。就像过去发明蒸汽机、发明电力一样。」

  MiniMax 在这波浪潮中动作密集。短短几周做了三件事,发布业界首个参与自我迭代的模型 M2.7,推出全球首个云端沙箱 MaxHermes,上线基于 OpenClaw 架构的云端 AI 助手 MaxClaw。

  三者构成了一个闭环。

  M2.7 从模型层为 Harness 持续优化底层能力,MaxHermes 和 MaxClaw 从产品层验证真实场景需求,再反馈回模型训练。

  MiniMax 管这叫「Model + Harness」双向飞轮。

  Model × Harness

  不卷跑分,卷 Token

  竞争的维度正在发生根本性转变。过去比的是模型有多聪明,现在比的是同等 Token 能产出多少价值。

  MiniMax 的解法,是让模型专门为 Harness 而生。

  M2.7 是 3 月 18 日发布的最新编程模型,也是第一个在训练过程中深度参与迭代自己的商用大模型。

  MiniMax 构建了一套内部 Agent Harness,让 M2.7 作为 Agent 在其中运行,包含短时记忆、自反馈、自优化三个核心模块。

  这套自我进化体现在三个层次。

  1. 模型能基于 Harness 完成任务,在 MiniMax 的强化学习团队已承担 30%-50% 的日常工作流。

  2. 模型能主动迭代 Harness 本身,自主运行优化循环超过 100 轮,评测效果提升 30%。

  3. 模型还有能力迭代机器学习模型本身的效果,在 MLE Lite 的 22 道高难度竞赛中取得 9 金 5 银 1 铜,得牌率 66.6%,仅次于 Opus-4.6 和 GPT-5.4。

  M2.7 的核心优化方向始终瞄准 Agent 场景,工具调用准确度、复杂 Skills 遵循、Agent Harness 适配。

  在 40 个复杂 Skills(每个超过 2000 Token)的测试中,M2.7 仍能保持 97% 的 Skills 遵循率。

  而最先认可这套能力的,是海外开源圈。

  从 M2.1 开始,Hermes 的联合创始人 Teknium 就在X上多次公开肯定 MiniMax 模型在工具调用、响应速度与性价比上的表现。

  M2.5、M2.7 每次发布,Hermes Agent 都第一时间接入。而且合作还在层层深入。

  如今,MiniMax 模型已经是 Hermes Agent 中使用量最高的模型之一。

  Hermes Agent 整体日均 Token 消耗已从 20 亿飙升至近 3000 亿,M2.7 在 Open Router 上日均消耗超过 250 亿 Token,占据显著份额。

  无独有偶,OpenClaw 创始人 Peter,也曾连发五条推文公开称赞 MiniMax 是最好的开源模型。

  他表示,M2.1 能以其他模型5% 的成本运行 OpenClaw,效果完全不输顶尖闭源模型。

  Notion 联合创始人 Akshay Kothari 则亲自宣布,MiniMax M2.5 成为 Notion Custom Agents 中第一个开源权重模型。

  被称为「Cursor 最强对手」的 AI 编程工具 Kilo Code,也高调宣布 MiniMax 是默认首选模型。

  Tommy 在直播中给了一个判断,「中国在开源模型方面已经领先了。开源和闭源之间从未有过如此接近的差距。」

  在这背后,是一套相互反哺的协作模式。

  Hermes 社区贡献了自进化 Agent 的架构设计和产品理念,MiniMax 贡献了让这套架构真正运转的模型能力和工程基础设施。

  Hermes 的架构创新为 MiniMax 的模型优化指明方向,优先级给了工具调用、Skills 执行、长上下文一致性这些 Agent 核心痛点。MiniMax 的模型能力提升又拓宽了 Hermes 架构所能达到的效果边界。

  海外头部开源项目选 MiniMax 做默认模型,说明一件事。

  模型跑分最高未必能赢,模型最懂 Harness 才能赢。

  养虾养马,越养越聪明

  模型和 Harness 的闭环要真正转起来,还需要产品层的验证和反馈。

  为此,MiniMax 同时推了 MaxHermes 和 MaxClaw 两条线,分别对应两种 Agent 进化路径。

  MaxHermes 基于开源智能体 Hermes Agent 构建,核心特性是「学习闭环」

  每完成一项复杂任务,Agent 自动从中提炼出可复用的 Skills,保存为独立文档,下次按需加载并根据反馈持续改进。

  加上持久化的跨会话记忆、自然语言定义的定时任务、多个子代理并行运行机制,它是一个能长期运行、持续进化的 AI 智能体。

  在 Skills 层面,OpenClaw 的依赖人工预设与引导,能力在部署那一刻就已固定。

  相比之下,MaxHermes 的 Skills 由 Agent 自主生成、自主迭代,像一个会举一反三的员工。

  MaxClaw 则是基于 OpenClaw 架构的云端 AI 助手,解决的痛点更具体,本地部署门槛高、稳定性不够。上线 120 小时紧急完成四次扩容,修复了飞书消息无响应等 IM 问题和进程退出后无法自动恢复等稳定性问题。

  功能方面,MaxClaw 预置精选专家级 Skill,用户获得 50G 云存储空间。

  对原有的图片理解、视频理解、网页提取等 Skill 做了系统性升级,新增图片生成、视频生成等内置工具,全部不产生额外 API 费用。

  安全方面预置「安全诊断 Skill」,能自主诊断修复报错。支持同时部署多个龙虾,移动端(iOS 和安卓)已全球上线。

  为了方便大家获取和使用,MiniMax 还上线了 Skillhub,精选上百种 Skills 供探索安装。最近一次更新他们直接把语音模型和音乐模型也接入了 OpenClaw 生态,小龙虾能说话、能唱歌。

  在平台层面,MiniMax Agent 则推出了 Expert 2.0。用户用自然语言描述任务目标,Agent 自动完成 SOP 梳理和能力配置,不需要懂 Skill、SubAgent、MCP 这些概念。上线以来已有 1.6 万+专家 Agent 被创建和使用。

  值得一提的是,MiniMax 自己也在吃自己的狗粮。

  据阿岛透露,公司内部有一个数字员工,拥有独立的 GitHub 账号,每天自动扫描开源项目,发现能用到 MiniMax 模型的就自己去提 PR。

  用 Agent 来推广 Agent 背后的模型,而海外开源社区的反馈证明,这招确实管用。

  这些产品每天产生的真实场景需求,又反过来驱动 M2.7 在工具调用、Skills 遵循等维度上的持续优化。飞轮就是这么转起来的。

  但光有模型和产品的互补还不够。要让这套闭环在云端大规模跑起来,还卡在一个更底层的环节。

  最容易卡住的就是沙箱

  Agent 在云端大规模运行,模型推理只是第一步。更难的是给每个 Agent 一个安全、隔离、可弹性伸缩的执行环境。

  在阿岛看来,「最有可能卡住的就是沙箱环节。如果迭代速度慢了,竞争力就会受到影响。」

  其中底层 Infra(身份认证、支付、沙箱等)创业公司很难做,需要和大厂深度合作。就像移动互联网时代,支付基础设施最终由微信和支付宝解决。

  MiniMax 的做法,是训练侧和部署侧分别找了两家头部云厂商。

  训练侧,MiniMax 与腾讯云深度合作,基于腾讯云 Agent Runtime 沙箱搭建 Forge 强化学习框架的基础设施。

  Forge 进行大规模强化学习训练时,需要模拟海量并发交互环境,让 Agent 在真实、可交互的执行环境中探索和试错。腾讯云提供 80ms 极速启动、每分钟 60 万沙箱实例、成功率 99.99% 的并发能力,支撑 M2.7 的自主进化训练。

  部署侧,MaxClaw 和 MaxHermes 的云端架构基于阿里云 ACK/ACS 构建。

  MiniMax 采用控制平面与执行平面分离的模式,阿里云 ACK 承载统一控制面,ACS Agent Sandbox 提供 20-40ms 极速实例供给,支持每分钟 15000 个沙箱的弹性扩缩,任务按需创建、结束自动释放。

  腾讯云负责训练,阿里云负责部署。

  两大云厂商同时首选 MiniMax 作为核心合作伙伴,本身就是对其技术实力和 Agent 产品规模的双重背书。

  Token 的含金量变了

  过去几年大家在比参数、比上下文、比跑分。现在比的是另一件事,同等 Token 能产出多少价值。

  MiniMax CEO 闫俊杰在 3 月的业绩电话会上提了一个公式——

  AI 平台价值 = 智能密度 × Token 吞吐量。

  MiniMax 的解未必是唯一答案,但它踩中了一个正在被验证的逻辑,模型为 Harness 而生,Harness 反哺模型进化。

  当两家头部云厂商同时为它修路、四个海外头部开源项目同时选它做默认模型的时候,这个逻辑至少在当下是跑通了的。

  接下来的问题只剩一个,M3 什么时候来。

  对此,MiniMax 已经透露了几个关键方向:

  • 更大更智能,尤其在 coding 和通用办公场景;

  • 原生多模态,支持视频和图像输入;

  • 价格亲民,目标让每个人都负担得起7×24 小时的 Agent。

  总之,时间不会太远了。

  参考资料:

  https://www.bilibili.com/video/BV155djB5ETY

  https://www.minimaxi.com/news/minimax-m27-zh

  https://agent.minimax.io/max-claw

  https://agent.minimax.io/

  https://github.com/nousresearch/hermes-agent