DeepMind再迎挑战者,ESM作者带队6个月超越AlphaFold 3,代码权重全开源

  新智元报道

  编辑:乔杨

  一家刚成立 6 个月的初创公司 Chai Discovery 最近发布了能对打甚至超越 AlphaFold 3 的模型 Chai-1,而且放出了模型权重和推理代码。不开源的 DeepMind 这回还能坐得住吗?

  距离 AlphaFold 3 亮相已经过去了 4 个月,但由于未公布代码且限量访问次数,我们对它的原理、机制和实际效用依旧知之甚少。

  前两天也仅仅完成了第一阶段,目前只能预测蛋白质,还无法用于 DNA、RNA 等其他生命分子。

  然而,AF3 的各路「踢馆者」正纷至沓来。

  最近,一家名为 Chai Discovery 的初创公司发布了他们的最新模型 Chai-1,能够对蛋白质、小分子、DNA、RNA、共价修饰等进行统一预测。

  原文地址:https://www.chaidiscovery.com/blog/introducing-chai-1

  根据基准测试结果,Chai-1 在药物发现的相关任务中达到了 SOTA 水平,甚至超过了 AlphaFold 3,以及 Meta FAIR 的前 ESMFold 团队另起炉灶搞出的最新模型 ESM3。

  不仅性能好,Chai-1 团队还撰写了一篇 16 页的技术报告,并开源了模型权重和推理代码,但仅限非商业用途。

  论文地址:https://chaiassets.com/chai-1/paper/technical_report_v1.pdf

  仓库地址:https://github.com/chaidiscovery/chai-lab

  开发者们可以选择下载代码、在本地运行或修改模型,也可以通过服务器在线调用。

  https://lab.chaidiscovery.com/

  这个 open 程度,让人不禁回想起曾经既有代码又有论文的 AlphaFold 2。

  模型发布后,HuggingFace 的 CEO 还直接发出了在线邀请:不如在 HF 仓库上也托管一份权重。

  IBM 大佬 Alex Kaplan 甚至把 Chai-1 的发布称为「药物发现的 ChatGPT 时刻」。

  他表示,当下绝对是分子生物学的黄金时代,在可预见的未来,只需几行代码就能治愈所有疾病,而 Chai-1 或许就是 AlphaFold 之后我们朝着这个目标迈出的重要一步。

  蛋白质领域的「原生多模态」

  技术报告中提到,模型架构和训练策略大体依照了 AlphaFold 3 的论文,但有一个关键区别:

  他们使用截止到 2021-01-12 的所有数据,仅训练了单个模型,而非针对不同的评估分别训练,此外还添加了一些新的功能。

  与大多数需要 MSA(多重序列比对)的结构预测工具不同,Chai-1 可以在没有 MSA 的情况下以单序列模式运行,同时达到相近的性能。

  除了利用序列信息,Chai-1 也是一个「原生多模态模型」。

  除了直接从序列信息进行建模的能力外,它还可以通过 prompt 接受新数据,例如实验得出的结合袋(pocket)、接触点(contact)和对接(docking)的约束条件。

  这些约束条件能捕捉到复合物中不同物质在不同粒度上的相互作用信息,和结构模板提供链内距离的作用类似,但更注重提供链间距离的信息。

  对比实验中发现,提供约束条件后,甚至可以为模型性能带来两位数的提升(图 4A);但为了防止模型过于依赖约束条件导致过拟合,训练时对这些特征采用了 dropout。

  比如表位的约束——即使只有少量的接触点或结合袋残基的信息,也能使抗体-抗原结构预测的准确率翻倍,让 AI 在抗体工程中的角色变得更加实用。

  根据 DockQ 上的可接受预测率基准,Chai-1 能比基于 MSA 的 AlphaFold-Multimer 模型(67.7%) 更准确地折叠多聚体 (69.8%)。

  这个结果,让 Chai-1 成为第一个仅使用单序列信息、无需 MSA 搜索,就能以 AlphaFold-Multimer 水平预测多聚体结构的模型。

  在 PoseBusters 基准上,仅给出蛋白质序列和配体化学成分的信息时,Chai-1 对配体预测结果的 RMSD(均方根偏差)成功率为 77%,超过了 AF3 的 76%。

  成立半年,拿出顶级模型

  发布 Chai-1 模型的 Chai Discovery 成立于今年 3 月,是一家 AI 生物初创公司,就在几天前的 9 月 9 日完成了 3000 万美元的种子轮融资。

  这轮融资由 Thrive Capital 领投,OpenAI 和 Dimension Capital 也参与其中,交易完成后,Chai Discovery 的估值已升至 1.5 亿美元。

  目前 Chai 的员工数量还不到 10 人,但吸引了不少来自 OpenAI、谷歌、Meta FAIR 等顶尖机构的人才加入,大部分成员也曾是头部药物公司的 AI 负责人。

  Chai Discovery 团队的旧金山办事处

  联合创始人兼 CEO Joshua Meier 本科和硕士都毕业于哈佛大学计算机科学专业,此外还拿到了化学专业的学士学位。

  他高中时就在美国计算机奥赛中拿到了金牌水平的名次,并涉足生物技术领域的创业,在 OpenAI、谷歌、Meta FAIR、布罗德研究所(隶属于 MIT 和哈佛)等机构都曾有丰富的研究和工作经历。

  2021 年,在 FAIR 工作的 Meier 和团队发表了一篇重要论文,创建了第一个 Transformer 架构的蛋白质语言模型 ESM-1b,目前引用量已经达到 1800+。

  论文地址:https://www.pnas.org/doi/full/10.1073/pnas.2016239118

  作者列表中,还有不少熟悉的名字,包括当时还在哈佛的 Pika 创始人郭文景(Demi Guo),以及 FAIR 曾经的 ESM 团队成员 Alexander Rives、Zeming Lin、Tom Sercu 和 Jason Liu。

  根据 LinkedIn 信息,ESM 团队解散后,Alexander Rives、Zeming Lin 和 Tom Sercu 已经去了初创公司 EvolutionaryScale,他们前段时间也刚刚发布新模型 ESM3。

  创立 Chai Discovery 前,Meier 还曾担任生物技术公司 Absci 的首席人工智能官。

  在种子轮中选择跟投的 Dimension Capital 投资人 Zavain Dar 最近发表了一篇文章,对投资想法进行了阐述,并高度赞扬了 Meier 和他的团队。

  Zavain Dar 表示,从 2019 年 Meier 先后入职 Meta 和 OpenAI 时,他们就非常关注 Meier 的工作。

  短短几个月内,Chai-1 就能够与业内财力雄厚、历史悠久的企业所开发的产品平起平坐,这让他们看到了,一个「短小精悍」的团队可以在极短时间内做出多少成就。

  在 Zavain Dar 的文章和 Chai Discovery 的博客中,都谈到了当前阶段开放技术成果的重要性。

  虽然 Chai-1 已经取得了非常卓越的成就,但我们才刚刚站在起跑线上。

  要将生物学「从科学转变为工程」,还需要构建更成熟、更强调的基础模型,用于预测和重编程生化分子间的相互作用。

  Chai-1 的团队表示,他们坚信长期的获胜策略需要透明度和开放实验,当今的生物技术从业者就可以免费且轻松地应用这些前沿技术,将其转化为药物发现领域的实用价值。

  参考资料:

  https://www.chaidiscovery.com/blog/introducing-chai-1

  https://www.bloomberg.com/news/articles/2024-09-09/openai-thrive-capital-back-six-month-old-ai-drug-discovery-startup