国思软件 - 清华耶鲁推理模型新范式：动态推理实现高效测试时扩展，大大节省Token消耗

　　Z1 团队投稿

　　量子位公众号 QbitAI

　　推理性能提升的同时，还大大减少 Token 消耗！

　　清华、耶鲁团队提出推理模型新范式：动态推理实现高效测试时扩展。

　　测试时扩展（test-time scaling）技术加速推动了大语言模型在复杂推理领域的突破。

　　以 OpenAI 的 o1 系列、DeepSeek-R1 等模型为代表，这些系统通过强化学习和大规模思维链（CoT）轨迹训练，在数学证明、编程竞赛等任务中展现出接近人类专家的水平。

　　例如，DeepSeek R1 在 MATH500 数学基准上达到 97.3% 的准确率，其核心在于允许模型在推理时动态扩展计算资源——生成更长的思维轨迹意味着更高的解题成功率。

　　然而，这种“以计算换性能”的策略带来了显著的效率代价。

　　现有方法通常强制分割上下文窗口：模型必须在前半段完成完整推理（如 R1 采用…分隔符），即使面对简单问题也需消耗很大一部分的思考 tokens（thinking tokens）。

　　更严重的是，部分模型在复杂问题上会出现“过度思考”（overthinking）现象：生成冗余的循环推理步骤却无法提升准确率。论文中揭示，直接截断超过 4096 tokens 的思考过程可能导致 DeepSeek-R1 性能下降 12.7%，这暴露了当前方法在效率与效果间的根本矛盾。

　　△（a) 与传统长思考模型相比，Z1 的动态思考窗口可以节省大量思考 token，达到高效推理性能(b)

　　针对这一挑战，来自清华、耶鲁团队基于纯代码数据训练了一个高效思考模型，其具有天然的动态推理能力，可根据问题难度高低生成不同长度的推理轨迹，同时搭配可调节的思考窗口，使得模型可以在预先设定的推理预算下实现高效的推理思考。

　　Z1：动态推理实现高效测试时扩展

　　本文的主要创新在于两个层面：

　　1、数据层面：构建 Z1-Code-Reasoning-107K 数据集

　　作者创建了一个包含 10.7 万条编程问题及其长短思维轨迹的数据集 Z1-Code-Reasoning-107K。通过 QwQ-32B 模型生成原始轨迹后，逐步提高推理等级，使其保留从“直接求解”到“多步推导”的连续复杂度分布。这种数据设计确保了模型在训练过程中能够接触不同复杂度的推理轨迹，从而提升其在实际任务中的适应能力。在此数据集上训练得到的 Z1 模型具备天然的动态推理能力，并且可迁移至数学等代码以外的推理任务。

　　2、机制层面：设计动态思考窗口（Shifted Thinking Window）

　　作者抛弃了硬性分隔符约束，设计了Shifted Thinking Window机制。对于简单问题（如 BigCodeBench-Hard 中的基础函数实现），模型自动触发弱推理模式，可直接输出答案；当遇到 GPQA 钻石级难题时，则自动启用强推理模式，在 max thinking tokens 阈值内自由推导并给出结果，如果思考超限则自动追加提示短语引导输出答案。

　　二者结合，使 Z1 模型具备动态思考能力和预算调整能力，在使用较少 thinking tokens 的同时，保持较高的基准准确率，实现高效动态的推理。