阿里开源 WebSailor,检索性能超 DeepSeek R1、Grok-3 等模型

  阿里通义开源了网络智能体 WebSailor,该智能体具备强大的推理和检索能力,在高难度智能体评测集 BrowseComp 上,WebSailor 的成绩超越了 DeepSeek R1、Grok-3 等模型和智能体,一举登顶开源网络智能体榜单。

  在构建数据集阶段,通义实验室大规模合成了具有高不确定性的复杂任务数据 SailorFog-QA,并基于 Qwen 模型进行冷启动微调,让模型学到超越人类的复杂推理模式;该团队还提出了高效的强化学习算法 DUPO,基于双阶段动态采样策略,大幅提高了训练效率,确保即使在密集工具交互的情境中,也能快速迭代模型,DUPO 将复杂 Agent 的强化学习训练速度提升了约 2–3 倍。

  英文版和中文版 BrowseComp 评测集的实测结果显示,WebSailor 跨越了开源和闭源系统之间的鸿沟,WebSailor-32B、WebSailor-72B 不仅在开源模型和 Agent 阵营里实现了断层领先,甚至超越了 DeepSeek R1、Grok-3 等闭源模型,仅次于闭源的 OpenAI DeepResearch。

  尽管 WebSailor 仅基于高难度数据训练,但在聚焦普通任务 SimpleQA 的数据集上,WebSailor 的表现也超越了其他方法,展现出极强的兼容性和有效性,验证了 WebSailor 方法的泛化能力。

  自今年以来,通义实验室已开源 WebWalker、WebDancer 和 WebSailor 三个检索和推理智能体,并全部斩获 SOTA(State-of-the-Art)。