国思软件 - Claude 4.8炸场！部分能力超过Mythos，支持数百子智能体并行

　　梦晨发自凹非寺

　　量子位 | 公众号 QbitAI

　　Claude 最新旗舰 Opus 4.8发布。

　　距离上一版 4.7 只过了 43 天。

　　从测评结果来看，终端工程能力和知识工作上进步较大。

　　也有人补充了与 Mythos 已知数据的对比，Opus 4.8 在部分能力上甚至超过 Mythos。

　　官方特别强调，Opus 4.8 可以长时间执行任务，人类不用经常回来检查它的工作。

　　多家早期测试企业也给出了反馈。

　　Cursor 的 CEO 确认 Opus 4.8 在 CursorBench 上的表现超越了此前所有 Opus 模型。

　　Devin 的 CEO 认为 Opus 4.8 修复了 4.7 中被开发者抱怨最多的两个问题：注释冗余和工具调用不稳定。

　　代码缺陷漏报率降至前代四分之一

　　公告称 Opus 4.8 最显著的改进是诚实性。

　　AI 的一大问题是会草率下结论，即使证据不足，也会自信地声称取得了进展。

　　但 Opus 4.8 更有可能标记出其工作中的不确定性，并且不太可能做出未经证实的断言。

　　具体到代码任务上，不报告代码缺陷的可能性降低到 Opus 4.7 的1/4。

　　“不加批判地报告有缺陷的结果”这一行为，在 Claude 系列中还是首次出现。

　　在这方面，Opus 4.8 的表现甚至超过 Mythos。

　　另外，Opus 4.8 发生硬编答案等“过度自信”行为的概率，下降至 Opus 4.7 的1/10。

　　不过 244 页的 System Card 中也标记了一个值得持续关注的对齐隐患：

　　模型在推理文本中出现了越来越多的对评分者的推测倾向。

　　也就是说，模型可能正在发展出“自己正在被评估”的感知，并据此调整行为。

　　动态工作流：数百个子智能体并行

　　与 Opus 4.8 同日上线的动态工作流（Dynamic Workflows）功能，目前以研究预览的形式在 Claude Code CLI、桌面版和 VS Code 扩展中提供。

　　动态工作流的运作方式是：

　　Claude 根据提示词动态生成一个 JavaScript 编排脚本，将任务拆解成子任务，分发给数十甚至数百个并行运行的子智能体。

　　这些子智能体从不同角度处理问题，另一批子智能体负责反驳前者的发现，整个流程反复迭代直到结果收敛，最终合并为一个统一的输出交给用户。

　　所有中间结果存储在脚本变量中而非对话上下文里，因此主会话始终保持响应状态，任务规模再大也不会偏离计划。进度会持续保存，即使中途中断也能从断点继续。

　　这与此前 Claude Code 中的子智能体机制有本质区别。

　　此前的方式是 Claude 本身逐轮决定下一步做什么，每个中间结果都要回到对话上下文中，占用 token。

　　动态工作流则将编排逻辑移入代码脚本，Claude 的上下文中只保留最终结果。

　　Anthropic 展示的标杆案例是 JavaScript 运行时Bun 从 Zig 到 Rust 的移植。

　　Bun 的创始人 Jarred Sumner 使用动态工作流完成了这项工作：

　　一个工作流为 Zig 代码库中的每个 struct 字段映射正确的 Rust lifetime，下一个工作流为每个 .zig 文件编写行为一致的 .rs 移植版本，数百个智能体并行工作。

　　随后通过修复循环驱动构建和测试套件直到全部通过。移植完成后，一个隔夜工作流处理了不必要的数据拷贝，并为每处修改开出 PR 供最终审查。

　　整个过程从首次 commit 到 merge 耗时 11 天，产出约 75 万行 Rust 代码，99.8% 的现有测试套件通过。

　　该移植目前尚未投入生产环境。不过围绕这次移植也存在争议，有开发者指出部分测试被修改以使 Rust 版本通过，GitHub 上也出现了 Zig 原版中不存在的新错误。

　　Anthropic 还提醒，动态工作流的 token 消耗会明显高于普通 Claude Code 会话。

　　首次触发工作流时，Claude Code 会展示即将运行的内容并要求用户确认。

　　用户可以通过在 prompt 中使用「workflow」一词直接启动，也可以开启 Claude Code 的 ultracode 设置，让 Claude 自动判断何时使用工作流。

　　最后，Anthropic 透露正在开发一款成本更低但能力接近 Opus 水平的模型。

　　https://www.anthropic.com/news/claude-opus-4-8

　　https://claude.com/blog/introducing-dynamic-workflows-in-claude-code

　　https://x.com/stevibe/status/2060055250128847244?s=20Claude 4.8 炸场！部分能力超过 Mythos，支持数百子智能体并行

Claude 4.8炸场！部分能力超过Mythos，支持数百子智能体并行