国思软件 - 百万Token白烧？Claude官方下场：5招治好上下文腐烂

　　新智元报道

　　编辑：元宇

　　给了 100 万 token，现在却手把手教你怎么删记录！Anthropic 官方承认：塞太多东西，Claude 就会变蠢。面对失控的「上下文腐烂」，Anthropic 连夜甩出 5 招救命指南。

　　Anthropic 自己戳破了百万上下文神话？

　　https://claude.com/blog/using-claude-code-session-management-and-1m-context

　　近日，Anthropic 一篇关于「如何管理百万上下文」的博客中再次提到了「上下文腐烂」（context rot）的问题，简单说就是：

　　上下文越长，模型越蠢。

　　Anthropic 解释道，上下文窗口是指模型在生成下一条回复时能够「看到」的全部内容，它包括你的系统提示、迄今为止的对话内容、每一次工具调用及其输出，以及所有已读取的文件。

　　目前，Claude Code 的上下文窗口为一百万个 token。

　　但上下文并非越长越好。模型的注意力被分散到更多 token 上，更早的、已经不相关的内容会开始干扰当前任务，导致表现下降，这就是「上下文腐烂」。

　　这并非社区自造的概念，而是出自 Anthropic 官方博客。

　　早在今年 2 月 Sonnet 4.6 发布时，公告里就写明了：Sonnet 4.6 提供了测试版百万 token 上下文窗口。

　　但百万 Token≠百万有效 Token。

　　你往对话里塞的每一条消息、每一次文件读取、每一轮工具调用，都在稀释模型的注意力。

　　早期那些已经不相关的内容不会自动消失，它们会像噪音一样持续干扰当前任务。

　　提出问题后，Anthropic 通过这篇博客给出了一套完整的管理方法。

　　先告诉你「你的对话在腐烂」，然后再手把手教你怎么治。

　　上下文越长

　　AI 越蠢

　　先把「上下文腐烂」的机制拆开看。

　　100 万 Token 听起来很多。

　　一个中型代码库，连文档带源码，可能也就几十万 Token。理论上你可以把整个项目塞进去，然后随便问。

　　但模型的注意力是有限资源。

　　你两小时前读的那个配置文件、一小时前调试失败的那段日志、半小时前探索的一条死胡同，全都还在窗口里，全都在抢模型的注意力。

　　这就是 context rot 的机制：模型被迫同时「记住」太多不相关的东西，没法集中精力处理眼前的任务。

　　也许你会觉得，这不就和人类开会开久了走神是一个道理嘛。

　　的确如此。

　　信息过载导致注意力稀释，这与能力无关，是带宽问题。

　　更要命的是，当上下文快要撑到 100 万 Token 上限时，系统会自动触发「压缩」（compaction）：

　　即把整段对话总结成一个更短的摘要，然后在新窗口里继续工作。

　　这听起来很智能，但自动压缩发生的那一刻，恰恰是上下文最长、模型表现最差的时候。

　　用最蠢的状态去做最关键的总结，这事儿本身就很难靠谱。

　　每一轮对话都是岔路口

　　Anthropic 在博客里把每一次对话交互定义为一个决策节点。

　　每一轮交互结束后，你其实站在一个岔路口，不是只有「继续聊」这一条路。

　　第一条：Continue。在同一会话中发送另一条消息，直接继续聊。上下文还相关，没必要折腾。这是最自然的选择，大多数时候也确实够用。

　　第二条：/rewind。连按两下 Esc，跳回之前某条消息，从那里重新来。

　　官方博客里有一个很精准的判断：与其纠正，不如回退。

　　回退（Rewind）通常是更佳的修正方式。

　　比如 Claude 读了五个文件，试了一种方法没成功，你的本能反应是说「这个不行，换个方法」。

　　但这样做的问题是，那次失败尝试的全部中间过程还留在上下文里，继续污染后续判断。

　　更聪明的做法是 rewind 到读完文件那个节点，带着新信息重新发一条更精确的指令：别用方案A，foo 模块没暴露那个接口，直接走B。

　　有用的文件读取保留了，失败的尝试丢掉了。上下文干干净净。

　　你也可以让 Claude 总结它学到的内容并创建一条交接信息。这有点像未来的 Claude 给过去的自己留了一封信：这条路我试过了，走不通。

　　第三条：/clear。开启一个新会话，附带一段简要说明：之前做了什么、现在要干什么、哪些文件相关。

　　好处是零腐烂，上下文完全由你控制。坏处是费事，所有背景都得你自己写。

　　第四条：/compact。让模型总结当前对话，用摘要替换掉原来的历史记录。

　　省事，但有损。

　　你可以附上引导指令：/compact focus on the auth refactor, drop the test debugging（聚焦认证重构，删掉测试调试。）

　　让它知道什么该留什么该扔，而不是去猜。

　　/clear 和/compact 看起来相似，但行为截然不同：

　　/compact 由模型决定什么重要，你省心但可能丢关键信息，而/clear 由你自己写下关键内容，费事但精确。

　　第五条，Subagents。

　　把一块工作交给一个拥有独立上下文的子智能体，干完活只把结论带回来。

　　当你知道接下来的任务会产生大量中间输出，但你只需要最终结论时，subagent 是最干净的方案。

　　它拿到一个全新的独立上下文窗口，在里面完成所有脏活，中间过程全部留在子窗口里，最后只有一份结论带回主会话。

　　Subagents：你的一次性调查员

　　这五个动作里，最容易被误解的就是 subagents。

　　很多人一听「子智能体」就往「多智能体协作」上联想：团队分工、并行处理、AI 员工开会讨论。

　　但 Anthropic 这篇博客里讲的 subagents，核心价值只有一个：上下文隔离。

　　官方文档明确写道：每个 subagent 都运行在自己的上下文窗口中。

　　它可以读大量文件、做大量搜索、跑完整个调查流程。但最终，只有摘要和一小段元数据会回传给主会话。

　　那些海量的中间过程，全部留在子智能体的一次性上下文里。你的主会话不会被这些噪声污染。

　　Anthropic 内部用的判断标准也很简单：

　　我之后还需要这些工具输出本身吗，还是只需要最终结论？

　　如果答案是后者，就交给 subagent。

　　博客里给了三个典型场景：

　　让 subagent 基于规格文件验证工作结果；让 subagent 去读另一个代码库，总结它的认证流程，然后你自己来实现；让 subagent 根据你的 git 改动去写文档。

　　这三个场景有一个共同点：过程很重，结论很轻。

　　所以 subagent 的本质不是你的同事，和你在一块干活，更像是你的「一次性调查员」。

　　它的工作簿在任务结束后就可以扔掉，你只需要拿走最后那页报告。

　　虽然 Claude Code 会自动调用 Subagents，但你也可以给它更明确的执行指令，比如：

　　启动一个 Subagents，根据以下规范文件验证此项工作的结果；

　　派生一个 Subagents 去阅读另一个代码库，并总结其身份验证流程的实现方式，然后你自己以相同的方式实现它；

　　派生一个 Subagents，根据我的 Git 变更来编写此功能的文档。

　　警惕自动压缩的翻车时刻

　　Anthropic 在博客里坦承了一个很多开发者已经踩过的坑：自动压缩（compaction）翻车。

　　什么时候翻车？当模型无法预测你接下来要干什么的时候。

　　博客举了一个例子：

　　你做了一次很长的调试会话，自动压缩触发了，模型把整个排查过程总结了一遍。然后你突然说：「现在修一下 bar.ts 里那个 warning。」

　　但因为整个会话主要围绕调试展开，那个 warning 只是中途顺带看到的一眼，压缩的时候已经被丢掉了。

　　这事棘手在哪？触发自动压缩的那一刻，恰恰是上下文最长、模型表现最打折的时候。

　　你让一个已经「走神」的模型来决定什么信息重要、什么可以丢掉。

　　好在百万 Token 窗口给了一个缓冲区。

　　你不用等到自动触发，可以提前主动/compact，并附上说明：接下来要做什么、哪些信息必须保留。

　　用最清醒的时候做压缩，而不是等到最糊涂的时候被动挨打。

　　说到底，自动压缩不是不能用，是不能盲信。

　　五条路

　　一个急救包

　　虽然最自然的做法就是继续下去，但另外四个选项可用于帮助你管理上下文。

　　这五条路拼在一起，本质上就是一套防治「上下文腐烂」的急救包。

　　Anthropic 官方示意图：五种上下文管理动作，从左到右保留的旧上下文越来越多

　　官方博客在文末放了一张决策表，按场景匹配工具：

　　每一次回车，都是一次上下文决策。

　　五种场景，五个工具，选对了上下文干净，选错了模型变蠢。

　　因此，每一轮交互之后，都该花一秒钟想想：我的上下文还干净吗？接下来该走哪条路？

　　百万上下文的另一面

　　是百万 token 的账单

　　除了管上下文质量，Anthropic 这次还做了另一件事：

　　让开发者看见自己的消耗。

　　博客开头就说了，/usage 这个新命令的推出，「来自我们和客户进行的多次交流」。

　　/usage 是干什么的？

　　根据 Claude Code 官方命令文档，它的作用是「显示套餐使用上限和速率限制状态」。

　　注意，这不是一个上下文管理工具。

　　它不压缩、不回退、不清理，只做一件事：让你看见自己用了多少，还剩多少，有没有撞上限流。

　　但这恰恰是开发者最焦虑的事。

　　100 万上下文听起来很美，但 token 不是免费的。

　　一个长会话跑下来，你到底消耗了多少配额？自动压缩会不会在你不知情的情况下触发，丢掉关键信息？你离速率限制还有多远？

　　以前这些问题没有答案，现在 Anthropic 给了一个透明窗口。

　　这个功能很小，但表明 Anthropic 已经意识到，百万上下文时代，「用得起」和「用得好」是两个必须同时解决的问题。

　　光给能力不给可见性，开发者迟早会踩坑然后流失。

　　提示词工程之后

　　是上下文工程

　　退一步看全局。

　　今年 2 月，Anthropic 发布 Sonnet 4.6，公告里确认了 100 万 token 上下文窗口（beta）。

　　那篇公告解决的是「能不能」的问题：模型能不能撑住这么长的上下文。

　　用户反馈也很正面：它在改代码前更能有效读取上下文了。

　　4 月 15 日这篇博客，解决的是「怎么用」的问题。它直接承认了现实局限，然后给出一套系统化的管理方法。

　　两步合在一起，构成了一个完整的闭环：先给你武器，再教你怎么用不伤到自己的钱包。

　　Prompt engineering 这几年被讲烂了。但真正决定 AI 编程天花板的，可能是下一个词：context engineering（上下文工程）。

　　怎么喂上下文、什么时候清理、哪些信息该隔离、哪些该保留，这些问题以前靠直觉，现在 Anthropic 开始给方法论了。

　　上下文工程，正在成为 AI 编程时代的必修课。

　　参考资料：

　　https://claude.com/blog/using-claude-code-session-management-and-1m-context

百万Token白烧？Claude官方下场：5招治好上下文腐烂

我们的产品

相关链接

关于我们

联系我们