马剑鹏:AI已绕不开,不能再不懂,宜从娃娃抓起

  “我整个职业生涯一直在做这个东西,但心里很清楚,同行也这么认为——在我们有生之年,‘蛋白质的折叠’问题是不可能解决的,尤其是蛋白质结构预测问题。结果 AlphaFold 出来了!” 10 月 9 日,博士生导师、国际著名计算生物学家、复旦大学复杂体系多尺度研究院院长马剑鹏教授告诉澎湃科技。

  当地时间 2024 年 10 月 9 日,瑞典斯德哥尔摩,诺贝尔化学委员会成员约翰·阿奎斯特、常任秘书汉斯·埃莱格伦和诺贝尔化学委员会主席 Heiner Linke 在瑞典皇家科学院将今年的诺贝尔化学奖颁发给戴维·贝克、德米斯·哈萨比斯和约翰·江珀。 视觉中国图

  当地时间 10 月 9 日,瑞典皇家科学院宣布,将 2024 年诺贝尔化学奖授予三位科学家,其中,一半授予美国华盛顿大学的戴维·贝克 (David Baker),以表彰其在计算蛋白质设计方面的贡献,另一半则共同授予英国伦敦人工智能公司谷歌 DeepMind 公司的丹米斯·哈萨比斯(Demis Hassabis)和约翰·乔普(John M. Jumper),以表彰其在蛋白质结构预测方面的贡献。

  这是继 10 月 8 日两位人工智能先驱被授予 2024 年诺贝尔物理学奖之后,人工智能科学家们再次被授予诺贝尔奖。

  2021 年,复旦大学复杂体系多尺度研究院院长马剑鹏团队合作发表基于主链的蛋白质侧链预测算法(OPUS-Rota4 算法),针对谷歌团队 AlphaFold 的软肋,大大提升了蛋白质侧链结构测试精度。

  据介绍,上述预测算法“目前已经迭代至 OPUS-Rota6,精度比 AlphaFold 2/3 都高”。

  复旦大学复杂体系多尺度研究院院长马剑鹏教授。

  对于 2024 年诺贝尔化学奖,马剑鹏认为,虽然人们疑惑又有人工智能领域的科学家拿诺奖,但这其实分两个问题:一是蛋白质结构的预测,该不该拿诺奖;二是人工智能在这方面的贡献值不值得拿诺奖。

  “这也是为什么给他们这个奖。其实这个问题并没有完全解决,但已经往前进了一大步,已经超越了我们有生之年的期望。现在已经可以使用了。”马剑鹏说。

  他认为,正如复旦大学宣布将推出至少 100 门 AI 领域课程一样,AI 已绕不开,你不一定需要会写算法,但至少要会用。他建议,“从娃娃抓起”,会用 AI。

  复旦大学复杂体系多尺度研究院院长马剑鹏教授。

  他还强调,为什么谷歌 Deepmind 公司能取得 AlphaFold 这样的突破?这个问题对中国极具现实意义。

  “王冠上的明珠”:一个老得不得了的极难的科学问题

  蛋白质为什么重要?

  “在你身体的每个细胞内,数十亿个微型机器——蛋白质——正在努力工作。”

  有人甚至说,几乎生命的一切特征都跟蛋白质有关。

  的确,蛋白质是每个生物体中每个生物过程的基础,它是生命的基石。没有蛋白质,生命就无法存在。结构是如此重要,蛋白质复杂而多样的结构,对应了各种惊人的功能,从而促成了生命的丰富多彩。其结构背后是生命的奥秘。

  “我给学生上课,头一件事就是要解释为什么蛋白质的结构预测如此困难、如此复杂?”马剑鹏说。

  一个个氨基酸相连“串成”多肽,而长链一样的多肽折叠形成稳定的空间三维结构,成为一个有功能的蛋白质。根据一个氨基酸序列推测出相应蛋白质最终的“折叠结构”(folded structure),这就是蛋白质结构的预测问题。它被视为现代分子生物学“皇冠上的明珠”。

  马剑鹏说,“这不是个新问题。而是个老得不得了的问题,然而这个问题是如此的难。”

  他举例,100 个氨基酸组成的蛋白质非常小,但假如其中的每个氨基酸只有两个态——折叠态和非折叠态(但实际上它有无穷个态),那么这个蛋白质就有 2 的 100 次方个态。

  “这个数字是如此巨大,如果用人类的任何计算机一个一个穷举过来,或者来检索,寻找其中一个正确答案,需要的时间甚至比宇宙寿命还长。但是蛋白质瞬间就能完成折叠。”马剑鹏说。

  科学家通过X射线晶体学或冷冻电镜等实验技术来测定蛋白质结构,但耗时费力。

  剑桥大学的研究人员约翰·肯德鲁和马克斯·佩鲁茨在 20 世纪 90 年代末取得了突破性的发现,他们成功地使用了一种叫做x射线晶体学的方法,展示了第一个蛋白质的三维模型。为了表彰这一发现,他们于 1962 年被授予诺贝尔化学奖。

  “2020 年,AlphaFold 解决了 50 多年来最大的科学挑战之一。”Deepmind 官网称,“取得了蛋白质结构预测方面的根本性突破”。

  到目前为止,AlphaFold 已经预测了超过 2 亿种蛋白质的结构——几乎所有科学界已知的蛋白质,并帮助科学家了解生命分子如何相互作用。

  AlphaFold 软件已发布过三个主要版本。2018 年 12 月,一个使用 AlphaFold 1 的研究小组在第 13 届结构预测关键评估(CASP13) 的总体排名中名列第一。2020 年 11 月,一个使用 AlphaFold 2 的团队在 CASP14 竞赛中再次名列第一。

  2021 年 7 月 15 日,关于 AlphaFold 2 的研究论文在国际学术期刊《自然》(Nature)上在线发表,论文标题是《使用 AlphaFold 进行高精度蛋白质结构预测》(Highly accurate protein structure prediction with AlphaFold)。John Jumper 和 Demis Hassabis 是共同通讯作者。

  AlphaFold 3 于 2024 年 5 月 8 日发布。它可以预测蛋白质与 DNA、RNA、各种配体和离子形成的复合物的结构。相关研究论文也于同一天在线发表在国际学术期刊《自然》(Nature)上。

  Deepmind 官网介绍,迄今为止,全球数百万研究人员已使用 AlphaFold 2 在疟疾疫苗、癌症治疗和酶设计等领域取得发现。AlphaFold 3 让人们超越蛋白质,进入更广泛的生物分子领域。这一飞跃可以开启更多变革性科学,从开发生物可再生材料和更具弹性的作物,到加速药物设计和基因组学研究。

  马剑鹏说,“如果纯粹从蛋白质结构的建模上,或者说制药业的药物设计上来看,Alphafold 的精度(准确度)远远没有达到理想的精度。但是,它比以前的工具不知道好到哪去了!”

  结构预测是技术,设计是艺术

  马剑鹏介绍,蛋白质的结构预测问题实际上涉及两个具体问题——蛋白质折叠的过程和最终的结构预测。“一个是蛋白质到底是怎么折叠起来的?其实就是刚才那一百个氨基酸的多肽折叠起来的整个过程。在起点和终点之间,怎么走?这个问题到现在也没有解决。但是从生物学家的角度,他们可以绕开第一个问题,我不 care(在乎)到底是怎么折叠的,给你一个蛋白质序列,你只要能告诉我最终的蛋白质结构就行了。根本不看路径。实际上路径(问题)更烦。”

  与预测结构相比,马剑鹏表示,设计一个新蛋白更难。前者是解题,预测一个自然界已经存在的蛋白的结构,后者是创造一个不曾存在的结构。“所以,我一直说搞折叠是个技术,搞设计是个艺术。”

  2024 年的三位诺贝尔化学奖得主之一戴维·贝克(David Baker) 在加州大学伯克利分校师从兰迪·谢克曼获得生物化学博士学位,并在加州大学旧金山分校师从大卫·阿加德进行生物物理学博士后研究。他现在是华盛顿大学生物化学教授、华盛顿大学医学院蛋白质设计研究所所长。贝克实验室开发蛋白质设计软件,并利用它来创建分子,以解决医学、技术和可持续性方面的挑战。他最近的工作之一是开发用于生成功能性蛋白质的强大机器学习方法。

  贝克还是华盛顿大学基因组科学、生物工程、化学工程、计算机科学和物理学的兼职教授。他发表了 600 多篇研究论文,共同创办了 21 家公司,并获得了 100 多项专利。

  马剑鹏介绍,贝克做蛋白质结构预测更早,在 AlphaFold 出现以前,他多次是 CASP 比赛的冠军。他预测的准确率达到了百分之四十几。“贝克突出的优点就是,他不仅会计算,会预测,他还会做实验,做设计。他本身是做实验出身,他的团队是一个非常典型的“干湿”结合的团队,所以特别成功。”

  上世纪 90 年代末,戴维·贝克开始开发能够预测蛋白质结构的计算机软件罗塞塔(Rosetta)。研究小组绘制了一种具有全新结构的蛋白质,然后让罗塞塔计算:哪一种氨基酸序列可以产生所需的蛋白质。事实证明,罗塞塔确实可以构建蛋白质。研究人员开发的蛋白质 Top7 几乎跟他们设计的结构完全相同。

  显而易见,人们可以用这种软件设计想要的蛋白质,用作药物、疫苗、纳米材料和微型传感器。

  人生无处不 AI:已绕不开,宜从娃娃抓起,不能再不懂

  “我有一个观点,我认为,Alphafold 的成功,对 AI 领域、计算机科学领域的影响,可能比对蛋白质结构预测的影响更重要。”马剑鹏。

  这种观点源自他长期的观察:1997 年,“深蓝”计算机(Deep Blue)曾经打败过国际象棋的世界冠军加里·卡斯帕罗夫(Garry Kasparov)。当时就有人觉得天要塌下来了,世界要被电脑颠覆了,结果什么事情都没发生;人们认为国际象的棋盘那么小,可以被打败,但围棋是不可能被电脑打败的。2016 年 3 月,阿尔法狗(AlphaGo,阿尔法围棋)以4:1 比分战胜韩国围棋九段高手、世界冠军李世石。又有人觉得天要了。但也有人认为,那只是个游戏,围棋游戏而已。直到 Deepmind 公司不惜代价,把 AlphaFold 做出来。

  “计算机科学 AI 领域的人一看,连这么难的蛋白质结构预测都能做出来,人脸识别、自动驾驶还算事儿吗?结果真的变成‘人生无处不 AI 了’。”“虽然 Alphafold 不完美,但真的可以用了,它可以加速科研。”马剑鹏说,Alphafold 的成功催生了一个现在天天能听到的名词——AI for science,用 AI 这个工具辅助科学研究。

  复旦大学 2024 年招生培养政策发布会上发布的信息称,从 2024 年秋季学期开始,复旦大学将在 2024-2025 学年推出至少 100 门 AI 领域课程。AI 大课将纳入所有复旦学生的学业安排。“要从娃娃抓起,你不能再不懂 AI,不能再不会用 AI。” “不需要每个人天天专门做算法,但广大科技工作者哪怕是做实验的,也至少得会用。”马剑鹏说,AI 算法确实非常强大,Alphafold 已经真正有实用价值了,不像以前搞理论自娱自乐。Alphafold 这种技术的存在,使得包括颜宁、施一公等科学家在内的做实验的人,他们解析蛋白质结构的速度可能更快了,但不是说不用做实验了。“它还取代不了实验。至少到今天为止,‘金标准’还得靠实验。如果哪一天预测技术准确到,算出来的结构一定是对的,那世界又变了。”

  为什么谷歌 Deepmind 公司能取得 AlphaFold 这样的突破?是因为算力吗?

  马剑鹏说,“这个问题对我们国家,尤其现在,是非常有意义的。”

  他表示,首先算力很重要,但关键还是算法。其次是问题的选择——你有没有想法,瞄准蛋白质结构预测问题。

  马剑鹏说,“更重要的一个启示是,你有没有注意到现在大部分突破都是公司做出来的?”

  他表示,它是典型的“大兵团作战”公司和高校的区别在于,在高校里面,你再有经费,还是单一的一个团队。但在公司里,可以雇各种各样的人,在一个领头人的负责下,为了同一件事努力。“(公司里)不需要你发 nature 或发 science 等论文。你的任务就是把这个事情做出来。这是一种范式上的转变。团队作战,最大的特点就是一定要有一个强有力的‘领头羊’,把各种各样的人团结在一起。理论上,这很适合于我们国家,我们也有这样的经验,集中力量办大事。”