新智元报道
编辑:Aeneas 桃子
刚刚,OpenAI 再度紧急出手,在发布会直播全新的「Deep Research」功能。基于 o3 的推理再加上联网搜索,ChatGPT 如今可以完成耗费人类专家数小时的复杂研究了!现在,模型已经刷爆「人类最后考试」榜单。
一大早,OpenAI 开启的在线直播,简直让人猝不及防。
OpenAI 研究负责人 Mark Chen 带领三位工作人员,在 20 多分钟内向我们详细演示了 Deep Research 的功能。
最大亮点之一:只要数十分钟,它就能完成人类专家花费几小时的复杂调研任务!
Mark Chen 将之称为「我们的下一代智能体产品」。
去年,OpenAI 就推出了 o1,但这些推理模型的一个限制,是它们无法使用工具,因为缺少了浏览互联网这个核心能力,
因此,现在 OpenAI 宣布了一个重大步骤:引入 Deep Research!
奥特曼激动地表示,这就像是拥有一种超能力,可以随时调用专家!
它能够使用互联网进行复杂的研究和推理,并为你提供详细报告。它非常强大,能够完成那些通常需要数小时、数天,且花费数百美元的任务。
需要强调的是,Deep Research 是基于优化版 o3 打造——一个可以浏览网页和执行 python 代码的 o3。
这是一个可以在互联网上进行多步骤研究的模型,它能发现、综合内容,并对之进行推理。甚至随着发现更多信息,它还会调整自己的计划。
也就是说,Deep Research 的一大特点,就是消除了模型中的延迟限制,它返回结果可能需要五分钟,甚至长达半小时。
模型能在无人监督的情况下,以更长时间执行自主任务,这俨然就是 AGI 的雏形。最终,OpenAI 的愿景是:模型能自主发现和发掘新知识。
OpenAI 研究员表示,「使用 Deep Research 对我来说真的是一次个人的 AGI 时刻。只要 10 分钟,它就能生成准确又全面的竞争对手和市场研究报告(还有来源),以前这些东西我得花 3 个小时才能做完」。
现在,Deep Research 会自己上网,然后给你一份全面、引用翔实的研究论文!也就是说,它已经妥妥达到了某领域研究专家的级别。
奥特曼还特意发文表示,这还不是 o3-mini 的「One More Thing」,这个小彩蛋过几天公布。
今天,Deep Research 就将在 Pro 中推出了(每月 100 次查询),之后还会很快在 Plus、Team、Education 和 Enterprise 版本中上线。
帮 PM 完成深度市场调查报告
从一个按钮「Deep Research」开始,就可以和 Deep Research 聊天了。
OpenAI 研究者演示说,自己一直在思考的就是,是否该开发一款新的语言翻译 app 呢?
这个市场调研,就可以交给 Deep Research——
「帮我找到 ios 和 Android 的采用率,想要学习另一种语言的人的百分比,过去几年移动普及率的变化,以及发达国家和发展中国家的差异。」
研究者明确表示,希望自己想要的信息以格式化的报告呈现,其中要包含表格和明确建议,说明哪些是最佳的新兴机会。
这个市场调查要求,可着实不简单。如果是普通打工人来调研,最少也得花费数小时。
但是 Deep Research,立马就启动了调查。
接下来,研究者进一步细化了自己的要求:给我渗透率的用户百分比,分析总体使用情况,对其余部分进行最好的假设。
在这里,Deep Research 就开始发挥自己的长处:自主启动研究过程。
在这个过程中,它会浏览不同网页,查看相关图片、表格、PDF,提取所有信息,来确定下一步要做什么。
在 OpenAI 的演示结束时,Deep Research 仍然在进行搜索和调研。此时,它已经查看了 29 个不同来源和大量信息。
可以看出,它的报告中已经包含了不同的表格,以及多种呈现数据的形式。
而且,我们能够点击查看模型的每一个引用,以及它遇到的不同网站。
对于不同学术领域的市场研究,比如物理学、计算机科学、生物学,Deep Research 都很擅长。
OpenAI 研究者还展示了一个财务研究的例子:「我是一个硅谷风投公司的投资分析师,想分析民用超音速航空旅行市场,准备一份详尽的投资备忘录。」
在这个过程中,模型开展了 7 分钟的研究,使用了 12 个不同来源,提供了一份全面的调查报告。
下面是一个生物学方面的例子。
研究者上传了一篇论文,想找到关于同一主题的其他论文。
最终 Deep Research 给出的结果,得到了生物学专家的认可。
有趣的东西:买买买
而且,Deep Research 能做的绝不仅仅是严肃的学术调查报告,它还可以帮你完成很多有趣、好玩的调查,比如——我该买什么?
如果我们要入手一件很贵的东西,肯定不敢贸然下单,而是提前在网上细细研读每一页说明和买家评论。
比如想在日本滑雪,想买滑雪板,就可以直接让 Deep Research 给我们出一份带表格的报告。
在这个过程中,我们可以细化要求:高级滑雪者,有时雪是粉状的,自己身高很高所以需要长滑雪板,而且颜色要很漂亮。
最终,Deep Research 给出了长篇的报告,还对理想的滑雪板做了详细列表。
也就是说,如果你想要的答案非常具体,那么 Deep Research 就会非常有效。
甚至,我们可以用 Deep Research 找出 10 年前在东京去过的餐厅的名字,或者找到我们忘记名字、但记得其中某集内容的电视剧。
除了描述情节之外,其余的信息就是这是 5 到 10 年前的电视剧了。
结果,Deep Research 居然找出了正确答案!
优化版 o3 加持,AGI 又近一步
去年 12 月,谷歌最先放出了研究智能体 Deep Research。
OpenAI 同款 Deep Research,也是智能体的一种,能够针对复杂任务上网进行多步研究。
它能在几十分钟内,完成人类需要数小时才能完成的工作。
只需一个提示,ChatGPT 即可查找、分析和综合数百个在线资源,创建一份「研究分析师级」的综合报告。
值得一提的是,Deep Research 由即将推出的 o3 模型的「优化版本」加持。
OpenAI 通过端到端强化学习,对它的深度浏览和推理任务进行了训练。
该版本专门用于网页浏览和数据分析,它利用推理能力来搜索、解释和分析互联网上大量的文本、图像和 PDF,并根据遇到的信息随时调整方向。
要知道,「综合知识」的能力,是创造新知识的先决条件。
因此,Deep Research 的推出,标志着 OpenAI 向更广泛的目标——开发 AGI 迈出了重要一步。
OpenAI 研究科学家 Hyung Won Chung 对此表示:
Deep Research 的一个显著特点就是它极强的耐心。我认为它已经接近了「超人类耐心」。在这个项目的过程中,我意识到智力和耐心是非常契合的。 就像推理模型 o1 一样,Deep Research 是通过强化学习(RL)进行学习的。它学习如何搜索相关信息,并通过推理整合知识。当 scale 遇上 RL 时,魔力就会产生。
毕竟,OpenAI 一直设想,真正的 AGI 是能够自己产出新颖的科学研究。
几天前的 Reddit 在线问答中,奥特曼也发表了同样的观点。
在我看来,最重要的影响将是加速科学发现的速度,我认为这是对提高生活质量贡献最大的因素。
一个提示,即出一份专业报告
那么,Deep Research 究竟能做什么?
据 OpenAI 介绍,它是专为那些在金融、科学、政策和工程等领域从事密集知识工作,需要全面、精确和可靠研究的人们而打造的。
对于那些「买买买」购物狂来说,Deep Research 还能为你所需研究的购买项目,比如汽车、家电、家具等,提供高度的个性化建议。
而且,每个输出都有完整的文档记录,包含清晰的引用和思维过程总结,方便随后参考和验证。
尤其是,它特别擅长发现需要浏览众多网站才能获取的小众、非直观信息。
只需查询一次,Deep Research 就能 get 要点,加快复杂、耗时的网络研究,节省了大量宝贵的时间。
此外,Deep Research 能够独立发现、推理并整合来自网络各种见解。
在技术层面上,它采用了与 o1 相同的强化学习方法,并进行了重要的升级。
它在真实世界任务中进行了训练,整合了浏览器的操作能力,强化了 Python 工具使用。
虽然 o1 在编码、数学和其他技术领域展示了令人印象深刻的能力,但许多现实世界的挑战需要从不同在线来源获取大量背景和信息。
Deep Research 在这些推理能力的基础上弥补了这一差距,使其能够处理人们在工作和日常生活中面临的各类问题。
最快 5 分钟,图像数据可视化要来
进入 ChatGPT,可以再聊天对话框中选择「Deep Research」,直接输入提示即可。
不论是对流媒体平台的竞争分析,还是关于最佳通勤自行车的个性化报告,ChatGPT 全能 hold 住。
甚至,你还可以上传文件、电子表格,提供与问题更多相关的背景信息。
一旦开启对话,侧边栏会显示所采取步骤和信息来源的摘要。
一般来说,Deep Research 需要5-30 分钟完成一份研究,具体实践取决于深入网络研究所需的时间。
在此期间,你完全可以去干别的事,ChatGPT 完成研究后会主动向你发送通知,最终的输出将以报告形式展现在聊天中。
更惊喜的是,未来几周,OpenAI 还将在这些报告中添加嵌入式图像、数据可视化和其他分析输出,提供更多清晰度和背景信息。
与 Deep Research 相比,GPT-4o 更适合实时的多模态对话。
对于需要深入和细节的多维度、专业领域的问题,Deep Research 能够进行广泛探索并为每个论点提供引用来源。
这种能力使其有别于简单的快速总结,而是能够提供经过充分论证和验证的专业答案,这些答案的质量足以作为正式的工作成果使用。
比如,你想要统计过去 10 年内,按 GDP 排名的前 10 个发达国家和前 10 个发展中国家的以下数据:iOS 和安卓系统的使用率、想学习另一门语言的人口比例、移动设备普及率的变化。
GPT-4o 仅仅是帮你列了出来,而 Deep Research 更像是一个报告,甚至给出了完整的可视化表格。
端到端强化学习,与 o1 同源
Deep Research 是如何运作的?
它通过在各个领域的复杂浏览和推理任务上,进行端到端强化学习训练而成。
通过这种训练,它学会了规划和执行多步骤路径,找到所需数据,必要时可以回溯并对实时信息做出反应。
该模型还能够浏览用户上传的文件,使用 Python 工具绘制和迭代图表,在回答中嵌入生成的图表和网站图片,并引用其来源中的具体句子或段落。
通过这种训练,它在多个关注现实世界问题的公开评估中刷新 SOTA。
人类最后一场考试,得分 26.6% 刷爆了
全网爆火的「人类最后一次考试」中,Deep Research 取得了 26.6% 准确率破纪录。
奥特曼骄傲地表示,早在周五,「人类最后一场考试」的最高分是 o3-mini-high,得分为 13%。但到了周日,Deep Research 功能的得分已经达到了 26.6%。
要知道这项测试包含了超3,000 道「专家级」多选题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等 100 多个学科。
与 o1 相比,最大的进步出现在化学、人文社会科学和数学领域。
驱动 Deep Research 的模型通过在必要时有效寻找专业信息,展现出类人的解决方案。
GAIA
在 GAIA 测试中,这是一个评估 AI 解决现实世界问题能力的公开基准测试。
驱动 Deep Research 的模型同样刷新 SOTA,位居外部排行榜榜首。
这些测试包含三个难度等级的问题,成功完成这些任务需要具备推理能力、多模态流畅性、网页浏览和工具使用等多项技能。
下面是一级和三级任务的对比区别。
专家级任务
另外,在对各个领域专家级任务的内部评估中,Deep Research 能够自动化完成,需要多个小时的复杂人工调查工作。
下图为专家级任务与最大工具调用次数的对比,显示出了模型花更多时间思考和浏览时,性能就会更强。
这跟 OpenAI 的理念相吻合:在未来世界里,智能体将花费越来越长的时间,完成越来越困难的任务。
下面这个案例中,Deep Research 进行的化学研究,节省了大约 4 小时的时间。
语言学方面,更是节省了 5 个小时。
以下两个图表可以证实这一事实。其中,上图为不同估算经济价值范围的通过率,下图为完成不同任务所需时间范围的通过率。
所谓通过率,即模型在专家级任务中提供满意答案的比率,答案由专家评定。
从图表中可以看出,通过率与估算经济价值的相关性,比估计小时数的相关性更高,也就是说,模型发现困难的事,也是对人类来说更耗时的事。
局限性
Deep Research 仍处于早期阶段,同样存在一些限制。
根据内部评估,它有时会在回答中产生虚构的事实或做出错误的推断,不过,频率明显低于现有的 ChatGPT 模型。
它可能难以区分权威信息和谣言,目前在置信度校准方面表现较弱,往往无法准确传达不确定性。
在发布时,报告和引用可能存在微小的格式错误,任务可能需要更长时间才能开始。
OpenAI 预计所有这些问题都会随着使用时间的增加而快速改善。
Pro 用户先上手,Plus 一个月内上线
OpenAI 称,Deep Research 在 ChatGPT 中非常消耗计算资源。
研究查询所需时间越长,所需的推理计算就越多。
目前,OpenAI 开始向 Pro 用户提供优化版本,每月最多 100 次查询。
接下来,这项功能会逐渐向 Plus 和 Team 用户(带越一个月内),以及 Enterprise 用户推出。
未来,所有付费用户都将获得更高的使用配额。
届时,OpenAI 将发布一个更快、更具成本效益的深度研究版本,它由更小的模型驱动,但仍能提供高质量的结果。
下一步:Operator+Deep Research
ChatGPT 的 Deep Research 功能现已在网页版正式上线,并将在一个月内推广到移动端和桌面端。
如前所述,目前,Deep Research 可以访问实时互联网,获取最新信息,并对上传的文件进行深入分析。
但,这仅仅是开始。
未来,任何一个人将能够接入更专业的数据源,比如学术期刊或企业内部资源。
这种定制化的知识获取能力,让 ChatGPT 真正成为你的专属智能助手。
最激动人心的是,OpenAI 正在酝酿一场更大的革命。
下一步,通过将 Deep Research(负责异步网络调查)与 Operator(负责实际行动执行)相结合,ChatGPT 将不再局限于信息处理,能够为每个人执行愈加复杂的任务。
这种突破性组合,将开创一个全新的 AI 个人助手时代。
参考资料: