阿里通义实验室发布并开源了 Tongyi DeepResearch,据称是首个性能对标 OpenAI Deep Research 的开源 Web Agent。
这是一款采用 30B 总参数、每 token 仅激活 3B 的 MoE 结构的模型。它拥有 128K 的上下文长度,并支持 ReAct 与 IterResearch 两种推理范式。
Tongyi DeepResearch 作为完全开源的 Web Agent。该项目的核心贡献不仅在于模型本身,更在于一套完整的、端到端的智能体训练方法论 。其关键技术包括:
- 全流程数据合成:不依赖昂贵的人工标注,通过创新的数据合成方案,为智能体的持续预训练(CPT)、监督微调(SFT)和强化学习(RL)提供海量高质量数据 。
- 端到端训练框架:建立了一个从 “智能体持续预训练” 到 “智能体强化学习” 的无缝训练循环,并采用定制化的在策略(on-policy)强化学习算法(GRPO)来对齐模型行为 。
- 创新的推理模式:除了标准的 ReAct 模式,还开发了基于 IterResearch 范式的 “重模式”(Heavy Mode),通过解构任务和重组工作区来克服长程任务中的 “认知窒息” 问题,从而最大化模型的推理和规划潜力 。
该模型及其全套解决方案已在 GitHub、HuggingFace 与 ModelScope 上线。配套的 Python 3.10 环境、JSONL 评测脚本以及 benchmark 评估工具也已一并开源,方便开发者使用和评估。
首页:https://tongyi-agent.github.io
博客: https://tongyi-agent.github.io/blog/introdung-tongyi-deep-research/
GitHub 仓库: https://github.com/Alibaba-NLP/DeepResearch