新智元报道
编辑:英智
本文介绍了当前最受科研人员青睐的 AI 模型,推理出色的 o3-mini、全能型 DeepSeek-R1、科研常用的 Llama、编程利器 Claude 3.5 Sonnet 和开源明星 Olmo 2,它们各有优劣,为科研人员提供了多样选择。
几乎每周都有新的、令人影响深刻的 AI 工具发布,研究人员纷纷踊跃尝试。
从复杂的数学问题求解,到医学诊断中的精准分析,再到代码编写与论文创作,AI 工具展现了巨大的潜力。
但市面上令人眼花缭乱的 AI 模型,究竟哪一款才是让科研工作者效率起飞的「梦中情模」,能助力科研突破,带来事半功倍的效果呢?
在这里,研究人员与《自然》杂志分享了他们当下最青睐的模型。
o3-mini:推理小能手
提到 LLM,就不得不提 OpenAI。2022 年,OpenAI 推出了聊天机器人 ChatGPT。
科学家们主要将 ChatGPT 用于查找信息或作为写作助手,如起草摘要等。而在去年,OpenAI 又发布了一系列更先进的模型,其中 o3-mini 就是一款非常出色的推理模型。
o3-mini 是一款速度很快的推理模型,并且面向注册用户免费开放。它经过训练,会以逐步推理的方式回答问题。
这种「思维链」旨在模拟人类推理过程,帮它在科学和数学领域突破了严苛的基准测试。o3-mini 擅长处理技术任务,如解决编程问题和重新格式化数据。
牛津大学数学家兼 AI 研究人员 Simon Frieder 表示,在解析陌生数学证明等任务上,o3-mini 表现非常出色。
不过,他也提到,o3-mini 仍然无法与数学家媲美。但不可否认的是,o3-mini 为科研人员在处理一些复杂问题时提供了有力的帮助。
OpenAI 近期还推出了「深度研究」功能,允许一些付费订阅用户从数百个网站上综合信息并添加引用,生成报告,进行文献综述。
旧金山初创公司 FutureHouse 的化学家兼 AI 专家 Andrew White 表示:「这些模型在组合使用时效果更佳。」
DeepSeek:全能「潜力股」
DeepSeek-R1 也是一款备受瞩目的模型。它的能力与 OpenAI 的 o1 相当,但通过 API 使用的成本却低得多。这对于许多科研团队来说,是一个很有吸引力的优势。
DeepSeek-R1 是开源权重模型,虽然其训练数据尚未公布,但任何人都可以下载基础模型,并根据自己的研究项目进行定制。
香港中文大学(深圳)的计算机科学家 Benyou Wang 等人正在开发可以在单机上运行或训练的版本,让更多学者能用到这个强大的模型。
和 o1 一样,DeepSeek-R1 的强项是解决数学问题和编写代码。同时,它在提出假设等任务上也表现不错。这是因为 DeepSeek 选择公布模型的「思考过程」,使得研究人员能够更好地完善后续问题,提高模型的输出质量。
这种透明度在医学诊断领域也可能发挥巨大作用。Benyou Wang 正在利用该模型的推理能力开展实验,致力于构建从患者评估到诊断和治疗建议的清晰路径。
然而,DeepSeek-R1 也并非完美无缺。该模型的「思考过程」似乎特别长,这降低了它的运行速度,在查找信息或头脑风暴方面实用性欠佳。
与竞争对手相比,DeepSeek 在防范模型生成有害内容方面所采取的措施似乎也较少。一些研究人员认为这种开源且功能强大的模型对于科研发展有着重要意义,而另一些人则对此持谨慎态度。
Llama:科研老伙计
Llama 是 Meta AI 于 2023 年发布的一组开源权重模型,长期以来一直是科研界常用的 LLM。仅通过开源科学平台 Hugging Face,Llama 各个版本下载量就已超过 6 亿次。
Llama 之所以受到科研界的欢迎,很大程度上是因为它可以被下载并在此基础上进行开发。在处理受保护的数据时,能在个人或机构的服务器上运行至关重要,可以避免敏感信息反馈给其他用户或开发者。
研究人员基于 Llama 模型开发出了能预测材料晶体结构的大语言模型,还利用它来模拟量子计算机的输出结果。
北卡罗来纳大学教堂山分校的 ML 科学家 Tianlong Chen 表示,Llama 很适合用于模拟量子计算机,因为相对容易对其进行调整,让它理解专业的量子语言。
不过,Llama 也有一些小缺点。比如需要用户申请访问权限,这对一些人来说有点麻烦。
因此,其他开源模型,如西雅图 Allen 人工智能研究所开发的 OLMo,以及阿里云开发的 Qwen,现在常常成为科研中的首选。DeepSeek V3 如今也是有力的竞争者。
Claude:编程利器
在硅谷,很多人对 Claude 3.5 Sonnet 的编程能力赞不绝口。
Claude 3.5 Sonnet 由总部位于旧金山的 AI 公司 Anthropic 开发,它不仅可以编写代码,还能解读图表等视觉信息。此外,它还有一种模式,允许其远程操作用户的计算机。
Claude 的写作风格也备受赞誉。一些 LLM(如 ChatGPT)在去除技术语言时,可能也会误删关键信息。而 Claude 在润色文本的同时,更擅长保留原意。
因此,在撰写科研基金申请或为代码添加解释性注释时,Claude 可能是更好的选择。
在一项基于数据驱动的科学任务的基准测试中,Claude 3.5 Sonnet 在编程挑战方面表现出色,这些任务的数据取自生物信息学和计算化学等领域的真实论文。
虽然 Claude 3.5 Sonnet 作为在线聊天机器人可以免费使用,但和 OpenAI 的模型一样,研究人员只能通过付费 API,才能实现完整集成。
随着更便宜的开源模型越来越强大,人们可能会更倾向于使用开源模型。
Olmo:开源新星
对于想要深入了解内部运行机制的研究人员来说,Olmo 2 是一个非常不错的选择。
Olmo 2 是目前性能最出色的开源模型之一,它还附带算法的训练数据,以及用于训练和评估模型的代码。
研究 Olmo 2 这样的模型能让研究人员将偏差来源追溯到训练数据上,同时通过更好地理解算法如何得出输出结果,来提高效率。
目前,开源模型的门槛是需要一定的专业知识才能运行,但随着免费实践课程的增加,进入门槛正在逐渐降低。
如果法院判定使用受版权保护的内容来训练模型属于违法行为,那么像 Olmo 2 这样基于允许重复使用和修改的数据集所训练的模型,可能是唯一可以安全使用的模型。
参考资料: