新智元报道
编辑:静音泽正
MIT 的 76 页深度报告!AI 辅助创新显著增长——这毋庸置疑。但,值得注意的是,AI 加剧了不同水平科学家产出的差异,这与科学家的判断力强相关,意味着缺乏判断力的科学家在未来可能会被慢慢淘汰……此外,作者还发现,AI 虽然提升了效率,但因为霸占了研究中创意生成的部分,剥夺了科学家们在研究工作中的乐趣。
AI 的最新进展显示出帮助科学突破的潜力,尤其是在药物发现和材料科学等领域。来自 MIT 的 Aidan 最近发布了一篇长达 76 页的深度研究报告,内容关于 AI 对科学发现和产品创新的影响。
通过分析一家美国大型企业研发部门引入 AI 技术前后的情况,研究发现,在 AI 辅助下,科学家们发现新材料的数量增加了 44%,这些新材料具有更独特的化学结构,导致专利申请数量增加 39%,下游产品的创新率上升 17%!
论文地址:https://conference.nber.org/conf_papers/f210475.pdf
虽然 AI 的应用显著提高了研发效率,但其效果在不同能力水平的科学家之间存在巨大差异,顶尖研究人员的产出近乎翻倍,而底部三分之一的科学家受益较少。
深入分析这些结果的机制表明,AI 自动化了 57% 的「创意生成」任务,使研究人员能够将精力重新分配到评估 AI 生成的候选材料上。顶尖科学家利用他们的领域知识来优先考虑有前景的 AI 建议,而其他人则浪费了大量资源在测试错误的结果上。
此外,调查还显示,虽然 AI 技术提高了科学家的工作效率,但也带来了工作满意度下降的问题,有 82% 的科学家表示工作满意度降低,主要原因是技能未得到充分利用和创造力的减少。尽管如此,参与实验的科学家普遍增加了对 AI 技术能增强生产力的信心,并有较大比例计划提升相关技能以适应未来工作的需求。
研究背景
目前 AI4Science 已经如火如荼。最新的诺贝尔物理与化学奖也颁发给了 AI,这说明 AI 有望带来科学突破,尤其是在药物发现和材料科学等领域,因为这些领域的模型可以在现有实例的大型数据集上进行训练。
然而,人们对这些工具在现实世界中如何有效地深度参与到研发流程却知之甚少,研发瓶颈、组织内部冲突或缺乏可靠性都会限制它们的有效性。因此,AI 对创新速度和方向的影响仍不确定。
为了研究这些问题,论文作者 Aidan 在美国一家大型公司的研发实验室向 1018 名科学家随机引入了一种用于材料发现的 AI 工具。
该实验室专注于材料科学在医疗保健、光学和工业制造领域的应用,拥有化学、物理学和工程学高级学位的研究人员。
传统上,科学家们通过昂贵而耗时的试错系统来发现材料,构思出许多潜在的结构并测试其特性,就像爱迪生研发灯泡一样。而 AI 模型通过对现有材料的成分和特性相关的数据进行训练,就可以生成预测具有特定特性的新型化合物的「配方」。
下图概述了研发流程。
首先,科学家要定义一组目标特性,并为预测能满足这些要求的新化合物提出想法。在引入 AI 之前,研究人员采用领域知识与迭代计算相结合的方法来进行初步设计。鉴于预测材料特性的难度,这一过程耗费大量时间,而且会出现许多错误。
然后,科学家们会对这些候选化合物进行评估,并合成最有前景的方案。一旦研究人员发现可行的材料后,通常会申请专利,并将其应用到产品原型中。这些可能是全新的产品,也可能是对现有产品线的改进。
最后,原型被开发、量产并投放市场。
将 AI 用于科学一直都有一个问题,它可能会放大「路灯效应」。也就是说由于模型是在现有知识的基础上训练出来的,它们很可能会将搜索方向引向人们熟知但价值较低的领域。
但是事实与这一假设恰恰相反,研究发现 AI 在研发的全链路都提高了创新性。
首先是与现有化合物相比,模型生成的材料具有更独特的物理结构,这表明 AI 释放了新的设计空间。
其次,利用 AI 工具的科学家申请的专利更有可能引入新的技术术语(这是变革性技术的主要指标),产生更有创造性的发明。
第三,它提高了代表新产品线所占的比例,而非只是去改进现有产品线,这些都促进了研发向更加创新的方向不断前进。
测量策略及研究设计
作者将材料发现过程分为三类任务:创意生成、判断和实验。
创意的产生包括与开发潜在化合物相关的活动,如查阅现有材料的文献或进行初步设计。
判断任务的重点是选择要推进的化合物,通常涉及模拟分析或根据领域知识预测材料特性。
最后,实验任务致力于合成新材料并进行测试以评估其特性。
发现一种材料后,科学家通常会申请专利。这可能涉及单一化合物、化合物组合或使用这些化合物的新技术。专利需要满足三个标准:新颖性、实用性和非显而易见性。
因此,专利标志着科学发现转化为有用发明的研究阶段。专利申请通常需要两年时间才能获得批准,因此该论文研究的分析重点是专利申请。
材料发现因其复杂性而极具挑战性。合理的化学构型空间巨大,需要科学家探索许多潜在的化合物。此外,虽然原子键的特性众所周知,但很难预测它们聚合成大规模特征的模式。
擅长从复杂数据中提取特征的深度学习模型有可能克服这些挑战。近年来,汇集已知化合物结构和特征的大型标准化数据库激增。加上算法的进步和计算能力的提高,这大大提高了深度学习在材料科学领域的性能。因此,该领域对这些技术的兴趣迅速增长。
该实验室的 AI 技术是一套根据现有材料的结构和特性训练而成的图神经网络(GNN)。
这张图展示了实验室 AI 工具的结构。
图A逆向材料设计表示了图神经网络输入一组目标特征并输出一个预测的结构。
图B展示了三步骤的模型训练:首先基于已知材料的结构进行预训练,再基于材料属性针对特定应用进行微调,最后结合科学家对 AI 生成的化合物的实验进行强化学习。
图C是图扩散模型的结构,该模型采用了一种基于扩散的方法来生成新的材料。它从一个已知的结构开始,增加噪音,然后逆转这个过程来创建一个新的化合物。
在短期试点计划之后,实验室于 2022 年 5 月开始大规模推广将该 AI 工具与研究结合的模式。他们将研究人员团队随机分配到三个批次中,分别由 404、419 和 195 名科学家组成。时间间隔约为六个月。在每一轮开始时,研究人员都会参加一个培训项目,学习如何使用该技术。
研究将多个数据源结合起来,以详细描述研发过程。作者收集了候选化合物、合成物质和最终材料的数据。这些数据包括化合物的物理结构信息,即其原子和化学键的组成和几何方向。
此外,他还会观察材料特性测试的结果,提供大量原子和宏观尺度的特性。一旦新材料被添加到实验室内部的化合物数据库中,并被认为可以用于产品,作者就会将其归类为「发现」的材料。这标志着从科学到工程的过渡,之后材料将被大规模开发和生产。
作者还将新材料与专利申请相匹配。这既包括化合物本身的专利,也包括使用这些化合物的技术。
专利数据之所以有用,有两个原因。首先,专利可以鉴定发明是重大的、适用的突破。其次,通过专利的申请文本,就可以使用相似度量来评估发明的新颖性,即利用术语频率向量之间的余弦相似性来量化文本相似性。
专利新颖性的第二个衡量标准是新技术术语的引入。剔除非技术术语后,它将专利的新颖性定义为在以前的专利中没有出现过的词组所占的比例。
正如 Kalyani 所指出的,这是衡量变革性技术的领先指标。研究发现在经过 AI 工具辅助后新申请的专利平均包含 544 个技术词组。其中,6.28% 被归类为新术语。
为了评估下游创新,作者收集了包含新发现材料的产品数据。其中主要是材料的使用方式,以及产品是代表新产品线还是对现有产品线的改进。
材料发现、专利申请及产品创新
数量显著增长
作者首先通过描述性证据展示了 AI 在材料发现、专利申请和产品创新方面的影响。
下图显示了采用 AI 和未采用 AI 进行研究的科学家在新材料、专利申请、新产品原型三个方面的时间序列趋势,揭示了采用 AI 后新化合物和专利申请数量的显著增长。十到十二个月后,采用 AI 所发现化合物的产品原型也随之增加。
接下来,作者转向回归估计。
下图展示了样本最后五个月的终线处理效应。平均来看,采用 AI 辅助研究的科学家发现的材料多出 44%,带来专利申请增加 39%,产品原型增加 17%。
为了研究动态效果,下图展示了事件研究的估计结果。结果显示出与原始时间序列相似的模式:材料发现和专利申请的影响在 5 到 6 个月后出现,而产品创新的影响则滞后一年多。
这些影响是巨大的。从材料发现增加的角度来看,实验室每位科学家的研究成果在过去五年中下降了4%。尽管引入了一些旨在帮助科学家的计算工具,但情况还是如此。
因此,AI 似乎是一种与众不同的技术,其影响要比以前的辅助研究方法大得多。
材料质量有所提高
AI 增加了新化合物的数量。然而,这可能会同时降低材料质量。为了验证这一观点,作者使用材料特性测试质量。如下表所示,他基于科学家目标特性与化合物实际特性之间的距离构建了三个质量指数。
上表显示了 AI 对这些指标的影响。
对于原子特性,该工具将平均质量提高了 13%,并将前 10% 材料的比例提高了 1.7 个百分点(第1-2 列);大规模特性的影响相似但略小(第3-4 列)。第 5 和 6 列将这两组特性组合为总体指数,显示平均质量显著提高(9%),高质量材料的比例增加了 1.5 个百分点。
这些指数组合了对公司可能具有不同重要性的多个特性,因此难以准确解释这些估计值的规模。然而,结果表明,AI 辅助的材料发现并未以牺牲质量为代价。
AI 工具对于创新的具体影响
AI 工具增加了研发中三个阶段的新颖性。
首先,按照化学相似性方法来衡量新材料本身的新颖性时,如上表第 1 列所示,AI 使平均相似度降低了 0.4 个标准差。
此外,AI 还使高度独特材料的比例增加了 4 个百分点(见第 2 列)。通过对科学家的调查证实了这些测量结果。73% 的研究人员表示,AI 工具比其他方法产生了更多新颖的设计。
虽然化学相似性捕捉到了科学新颖性的一个关键方面,但重要的是要确定更多的原创材料是否会带来更多的创新技术。
然后作者利用两个相似度指标分析了专利申请的文本相似性。第一个指标基于申请全文,第二个指标基于新技术术语的比例。
如上表第 3 列所示,该工具将第一个指标的新颖性提高了 11%,使平均申请量从相似性分布的第 48 百分位数上升到第 42 百分位数。在第二项指标上(见第 4 列),AI 将新技术术语的比例提高了两个百分点(22%)。
最后,作者研究了该工具对产品创新性质的影响。在没有 AI 的情况下,科学家们主要关注现有产品的改进,只有 13% 的原型代表新产品线。如上表第 5 列所示,这一比例上升了 3 个百分点(22%)。
总之,AI 工具提高了发现的新颖性,带来了更多创造性专利和更多创新产品。
而 AI 增加新颖性这一事实可以有两种解释。一种可能是,模型只是善于归纳,探索材料设计空间的新部分。或者,这一发现可能主要反映了在没有 AI 的情况下人类的局限性,也就是说科学家们会更加严格地遵循熟悉的模板与既定流程。
AI 加剧了科学家产出的差异
研究表明,AI 主要惠及原本生产力就高的科学家,从而加剧了不平等。
下图展示了引入 AI 前后材料发现率的分布。分布向右移动且更偏右,表明高能力的科学家从该工具中获得了更多收益。
下图展示了回归估计结果,将研究人员是否被分配使用 AI 工具的状态与初始生产力的分位数相结合。
结果表明,处于底部三分之一的研究人员几乎没有从该工具中受益,而最高分位的科学家产出增加了 81%。因此,90:10 研究表现的比率增加了一倍以上。足以说明,这一工具加剧了不平等的现象。
核心要素:科学家的判断能力
材料发现涉及三个任务阶段:创意生成、判断(即识别出有前景的候选化合物的能力)和实验。生产力的差异反映了科学家在各阶段中的不同能力。
首先,作者设计了一个方法,用于估算每位科学家在预处理期内的任务特定研究能力。由于实验阶段仅包含例行测试,他将重点放在创意生成和判断上。
作者进行了多项测试来验证这些能力测量。最后得到如下图表:
上图显示了科学家在创意生成和判断两方面技能的相关性。这两个指标之间呈正相关(r=0.42, p<0.00),这表明科学家在这两类任务中具备某种基础性的专业能力,使他们在两方面都有较高的生产力。
但关联度远低于1。这表明,虽然一些科学家在这两项任务上都表现较好,但他们不一定在两者上都同样出色。这种较低的相关性揭示了每个科学家在不同任务上可能具有「比较优势」,即一些科学家在「创意生成」方面更擅长,而另一些人在「判断」方面表现更佳。因此,科学家可以通过发挥自己在特定任务上的优势来实现专业化。
所以,不能简单地将「技能偏向」看作一维的。要更细致地理解 AI 在科学研究中所补充的技能,必须关注科学家在不同任务中的具体能力。
这意味着,AI 并不是对所有科学技能都有帮助,而是特别能加强那些能与 AI 合作或被 AI 支持的特定技能,比如判断能力。在研究中探索这些不同的技能有助于更好地理解人类和 AI 如何协同工作。
在获得任务特定的研究能力估计后,作者研究了哪些技能导致了 AI 的异质性影响。为此,作者在科学家层面估计了一个回归模型:
其中,yst 是科学家s在月t内发现的材料数量,Dst 是一个表示是否受到 AI 影响的处理指示变量,和分别表示科学家在创意生成和判断任务上的估计研究能力。这些能力测量标准化为均值为零、标准差为一。主要关注的系数是β4 和β5,它们捕捉了 AI 对任务特定技能的差异性影响。
得到的结果如下表。当增加一个标准差时,AI 处理效应提升了 14.8 个百分点;而增加相同幅度仅导致 3.5 个百分点的提升。两个交互项的系数均为正且显著,但判断任务的影响明显更大。
判断能力差异解释了 AI 对初始生产力异质性影响的 80% 以上。这些发现表明,在解释 AI 对不同科学家影响的差异时,判断能力起到了核心作用。
科学家与 AI 的协作
经过上面的研究,作者总结出了以下三点发现:
首先,AI 显著提高了材料发现的平均速度;
其次,它对初始生产力水平不同的科学家产生了不成比例的好处;
第三,这种异质性几乎完全由科学家的判断能力的差异所驱动。
为了解这些结果背后的机制,作者研究了科研中科学家与 AI 的协作机制。
创意生成时间被大大压缩
首先,他记录了 AI 加入前后科学家工作精力分配的比例变化。
下图展示了科学家在研究过程中分配到创意生成、判断和实验任务上的时间份额变化。这些数据来源于科学家的活动日志。
由此可见,在引入 AI 之前,科学家将 39% 的时间用于创意生成,但在模型引入后,这一比例降至 16% 以下。同时,判断任务所占时间从最初的 23% 增加到了样本结束时的 40%。实验任务的时间份额也从 37% 增加到 44%。另外,研究总时长保持不变。
下图展示了在判断任务上具有较大比较优势的科学家(即高/值)和较小比较优势的科学家在任务构成上的变化。
虽然所有科学家的时间分配都发生了显著调整,但相比其他科学家,那些在判断技能方面具有比较优势的科学家将更多的工作时间从创意生成任务转移到了判断任务上。具体而言,这些科学家在时间分配上的转变比判断技能较弱的科学家多了 46%。
判断力来自领域知识
接下来,作者建立了一个简单的优先搜索框架来分析这种转变背后的原因。
他发现判断力强的科学家测试的候选材料数量较少,但发现的可行化合物更多。具有较强判断力的科学家学会了优先选择有前景的 AI 建议,而其他人则在测试错误建议上浪费了大量资源。这导致的发现率差距解释了工具的异质性影响。
此外,作者还发现,在引入 AI 后,科学家在评估 AI 生成的化合物方面的能力差异逐渐显现并扩大。
对比后发现,判断力较强的科学家在处理期内迅速提高了他们对 AI 建议的排序和优先级设置,而判断力较弱的科学家在评估上未见明显改善。
这个能力差距导致顶尖评估者能够有效地筛选出更多高质量的化合物,而评估能力较弱者则在筛选上表现接近随机。
为了探索为何部分科学家的判断力更优,作者设计了一份问卷调查实验室的科学家们,以了解他们在评估过程中的想法和经验。
调查数据显示,这些判断力上的差异主要来自科学家的领域知识。
进一步分析中,作者考察了四种可能的专家能力来源。
结果如上图所示,高判断能力的研究人员在评估模型生成的候选物时更重视科学训练和类似材料的经验。
此外,他们的「直觉或第六感」也与判断能力呈正相关(直觉被视为隐性知识的代表)。
然而,AI 技术的使用经验对这种差异没有解释力,因为所有科学家报告的此前接触 AI 的经验都较少。
与此一致的是,判断能力的差异随着时间逐渐显现。支持领域知识重要性的证据表明,处于判断能力上四分位数的科学家发表与其研究材料相关学术论文的概率是其三倍多。
这些结果强调了领域知识在评估 AI 建议时的重要性。机器学习的视角表明,顶尖科学家在材料设计问题上能够识别出模型未捕捉的特征。
因此,将人类反馈纳入算法预测中可能是科学发现的一个潜在途径。从经济学的角度来看,这些发现展示了算法与专业知识在创新过程中的互补关系,尤其强调了「判断模型建议」这一新研究技能的重要性,这种技能能够增强 AI 技术的效力。
有人曾推测大数据和机器学习会使领域知识过时,但在材料科学领域情况并非如此。事实上,只有具备足够专业知识的研究人员才能充分发挥 AI 技术的作用。
缺乏判断力易被淘汰
在作者研究的过程中,实验室通过调整雇佣和管理来应对研究过程的变化。该公司对其研究团队进行了重组,解雇了约3% 的研究人员,并在此基础上通过增加招聘进一步扩大了团队规模。
在实验结束后,实验室重新设计了其招聘和解聘标准,优先考虑具备较强判断力的科学家。
按判断力四分位数划分的解雇或重新分配的概率
实验室的这种调整体现了勒沙特利原理(LeChatelier Principle),即随着时间推移,实验室能够对工具产生更强烈的反应,因为它可以重新优化更多的投入。
作者也指出,由于实验室的这种组织调整,AI 的长期影响可能会被当前的估计低估。这意味着,如果实验室在招聘和人员配置上逐步适应 AI 辅助的工作模式,AI 的影响可能在未来会更加显著,从而进一步提升研究效率和发现率。
AI 提升了效率,却剥夺了研究乐趣
通过问卷调查,作者探讨了这些变化对科学家工作满意度和对人工智能看法的影响。除了直接的福利影响,这些结果还揭示了 AI 如何可能影响谁会选择成为科学家、他们进入哪些研究领域,以及他们倾向于培养的技能。
AI 对科学家工作满意度的影响可能有不同的表现。一方面,它可能通过提升能力和增加科学发现的速度来提高士气;另一方面,它也可能使工作变得不那么令人愉快,因为重点转移到了不那么有趣的任务上。
为调查这些因素的相对重要性,作者收集了工作满意度在三个方面的变化:生产力变化带来的影响、任务重新分配带来的影响,以及总体影响。
在下图中,结果以-10 到 10 的尺度显示,并按最初生产力的四分位数进行分组。结果显示出两种相反的趋势:任务变化带来的负面影响,以及生产力提升带来的大多是正面影响。
任务重新分配的影响在各个四分位数中始终为负,从-4.1 到-4.8 不等。尽管生产力提升带来的乐趣部分抵消了这一负面影响,特别是在高能力科学家中。但总体而言,82% 的研究人员的满意度有所下降。
在下图中,作者列出了科学家不喜欢任务变化的主要原因。最常见的抱怨是技能未被充分利用(73%),其次是任务变得缺乏创造性且更为重复(53%)。此外,有 21% 的科学家担心成果归属问题,19% 则对 AI 工具的复杂性感到不满。
这些数据反映了快速技术进步带来的适应难度。正如一位科学家所言:「虽然我对 AI 工具的表现印象深刻……但我不禁觉得自己多年的教育变得毫无用处。这不是我所受的训练。」
这些结果对 AI 主要会自动化枯燥任务、让人类专注于更有价值活动的观点提出了质疑。相反,该工具自动化的正是科学家们最感兴趣的任务——为新材料创造想法。
这反映了 AI 与以往技术的根本差异。过去的技术创新主要在处理例行、可编程的任务方面表现出色,而深度学习模型则通过识别训练数据中的模式来生成新颖的输出。
科学家们的反馈还表明,组织实践会影响 AI 带来的福利效应。科学家不仅关心自身的生产力,还在意相对于同事的表现。因此,尽管研究产出有所增加,但处于生产力底部四分位的科学家对自己的工作满意度却有所下降,这与公司的晋升实践相一致,因为晋升决策基于相对绩效。
下图展示了科学家们对五个 AI 相关陈述的认同水平在 AI 引入前后的变化。
可见,他们越来越相信 AI 会提高所在领域的生产力。对于 AI 取代岗位的担忧则基本保持稳定,这可能反映了人类判断力的持续需求。
此外,科学家们更加认为 AI 将改变他们工作中取得成功所需的技能,因此,计划重新学习新技能的研究人员数量显著增加。
最后,科学家们对自己所选领域的满意度有所下降,这与前面发现的工作满意度下降一致。
作者简介
Aidan Toner-Rodgers 是麻省理工学院经济学二年级博士生。之前,他从麦卡利斯特学院毕业后曾在纽约联储工作过。
他的研究主要集中在科学与创新的经济学,运用产业组织、博弈论和劳动经济学的工具。
参考资料: