国思软件 - 阿里开源 WebSailor，检索性能超 DeepSeek R1、Grok-3 等模型

　　阿里通义开源了网络智能体 WebSailor，该智能体具备强大的推理和检索能力，在高难度智能体评测集 BrowseComp 上，WebSailor 的成绩超越了 DeepSeek R1、Grok-3 等模型和智能体，一举登顶开源网络智能体榜单。

　　在构建数据集阶段，通义实验室大规模合成了具有高不确定性的复杂任务数据 SailorFog-QA，并基于 Qwen 模型进行冷启动微调，让模型学到超越人类的复杂推理模式；该团队还提出了高效的强化学习算法 DUPO，基于双阶段动态采样策略，大幅提高了训练效率，确保即使在密集工具交互的情境中，也能快速迭代模型，DUPO 将复杂 Agent 的强化学习训练速度提升了约 2–3 倍。

　　英文版和中文版 BrowseComp 评测集的实测结果显示，WebSailor 跨越了开源和闭源系统之间的鸿沟，WebSailor-32B、WebSailor-72B 不仅在开源模型和 Agent 阵营里实现了断层领先，甚至超越了 DeepSeek R1、Grok-3 等闭源模型，仅次于闭源的 OpenAI DeepResearch。

　　尽管 WebSailor 仅基于高难度数据训练，但在聚焦普通任务 SimpleQA 的数据集上，WebSailor 的表现也超越了其他方法，展现出极强的兼容性和有效性，验证了 WebSailor 方法的泛化能力。

　　自今年以来，通义实验室已开源 WebWalker、WebDancer 和 WebSailor 三个检索和推理智能体，并全部斩获 SOTA（State-of-the-Art）。

阿里开源 WebSailor，检索性能超 DeepSeek R1、Grok-3 等模型

我们的产品

相关链接

关于我们

联系我们