新智元报道
编辑:桃子
AI 编写「生命代码」成真!今天,斯坦福联手 Arc Institute 放大招,以噬菌体ΦX174 为模板,用 AI 首次生成基因组。其中,16 个成功猎杀大肠杆菌,还能 KO 耐药菌,堪称生命学的「ChatGPT 时刻」。
人类历史首次,用 AI 生成全功能基因组!
1977 年,生物化学家 Frederick Sanger 等人,完成了史上第一个基因组测序——噬菌体ΦX174。
40 多年后的今天,斯坦福联手 Arc Institute 团队,以ΦX174 为起点,用 AI 首次生成了噬菌体基因组。
其中一个,AI 设计的噬菌体基因组,长的是这样子:
Evo-Φ36
简单讲,噬菌体ΦX174 是一种「感染大肠杆菌」的病毒,能精准猎杀细菌,却对人体无害。
过去,设计一个基因组绝非易事,需要考虑繁多的因素,限制了合成生物学领域的进展。
为此,斯坦福等团队拿出了「秘密武器」——
基于数百万个基因组训练,DNA 语言模型 Evo 1 和 Evo 2,能以超乎想象的规模学习基因组的复杂特征。
其工作原理与 ChatGPT 类似,专门去处理 DNA。
论文地址:https://www.biorxiv.org/content/10.1101/2025.09.12.675911v1
他们以噬菌体ΦX174 为模板,合成了 285 条基因组。
最终显示,16 个基因组可有效抑制宿主生长,不仅能精准干掉特定大肠杆菌,还不会误伤其他的菌株。
有些 AI 设计的噬菌体,比原始版本复制力更快、竞争力更强,甚至还能对付天然噬菌体难以处理的耐药菌。
这一实验的成功,意味着什么?
它标志 AI 在「合成生物学」领域的一次重大突破——
首次成功验证了,AI 能完整生成具备生物学功能的噬菌体基因组。
这不仅扩展了人类对生命设计的边界,还为应对「抗生素耐药性」等健康挑战,提供了全新可替代的疗法。
历史首次!AI 生成「完整」基因组
在最新技术博文中,核心团队详细拆解了,成功设计首批 AI 生成基因组的秘诀。
不论是设计单个基因,还是一个完整的基因组,都是一项极具挑战的难题。
以遗传信息存储系统的历史来算,基因组大概存在了 40 亿年。而 DNA 基因组的存在,大约有 35 亿年。
今年 2 月,Arc Institute 曾证明了,基因组基础模型 Evo「家族」,可成功生成单个蛋白质或复杂的多组分系统,比如 CRISPR-Cas 复合体。
但是设计整个基因组,那又是一个全新的战场!
因为,基因组设计,核心难题在于复杂性:多个基因相互作用,还要维持精妙的平衡,确保复制、宿主特异性和进化适应性。
这些挑战,在单个蛋白质设计中,根本不会存在。
为了攻克这一难题,斯坦福 Arc Institute 团队开发了一系列创新技术,其中包括:
-
一个为重叠阅读框定制的基因注释流程;
-
用于从基因组语言模型中采样的系统性微调与提示词工程策略;
-
一套为合成噬菌体基因组设计的全新筛选方案
ΦX174,跨越半个世纪接力赛
若要生成合成基因组,还得需要一个可靠的起点。
噬菌体ΦX174——一种微小的病毒基因组,只有 5386 个核苷酸,编码 11 个基因。
左:ΦX174 噬菌体显微照;右:单个ΦX174 噬菌体 3D 结构
它的大小,刚好在当前 DNA 合成成本的可承受范围内,却也足够复杂,能考验基因组设计的能力。
然而,ΦX174 基因重叠结构,创造了一个严苛的测试用例:
一个突变可能影响多个蛋白质,必须多重约束下才能正常工作。
此外,ΦX174 编码了多种调控元件和识别序列,它们精密协同,确保噬菌体在宿主细胞内能被正确包装和复制。
ΦX174 基因组,是一场跨越半个世纪的接力赛。
1977 年,Fred Sanger 及其团队的研究,让其成为人类首个完整测序的基因组。
2003 年,Craig Venter 及其团队首次通过化学方法将其完整合成,证明了基因组可以从零开始构建。
如今,2025 年,团队利用ΦX174 作为模板,创造出首批由 AI 生成的基因组。
这一演进历程,正标志着定义现代基因组学的核心能力:先学会了读取(测序),接着是写入(合成),而现在是设计(AI 生成)。
ΦX174 基因组
AI「基因组工厂」,破解重叠谜题
如上所述,ΦX174 重叠基因,让标准工具束手无策。因为它只能识别 11 个基因中的 7 个。
为此,研究人员打造了专属注释流程:
结合开放阅读框(ORF)搜索和噬菌体蛋白数据库的同源性比对,最终成功识别全部基因,甚至预测了部分A*基因。
这一工具,在评估数千个 AI 生成的序列时,大显身手。
研究人员设定了底线——生成的基因组必须预测出,至少 7 个匹配天然ΦX174 蛋白质,确保保留噬菌体「生存工具包」。
微调 Evo,让 AI 更懂噬菌体
原有的 Evo 模型,基于海量噬菌体数据训练后,虽能生成序列,但缺乏针对ΦX174 精准控制。
为此,监督微调,成为了不二选择。
团队又让 Evo,在 14,466 精选的微小噬菌体序列上,继续训练在减少冗余后,模型专攻ΦX174 相关变异。
微调后,通过精心设计的提示词和采样参数,Evo 能生成与ΦX174 进化相似却又创新的序列。
这就像给 AI 一个灵感模板,让它在熟悉中注入新意。
评估与筛选
生成序列后,作者又开发了多维度评估体系,可以检查基因排列、宿主特异性和进化多样性。
关键是,确保 AI 噬菌体能感染,实验用的非致病菌株——C型大肠杆菌。
于是,他们要求序列中包含与ΦX174 相似的刺突蛋白,因为该蛋白决定了ΦX174 的宿主范围。
实验证明,所有 16 个功能性噬菌体,都对C型大肠杆菌,以及W型大肠杆菌,具有严格的靶向性。
而且,其对其他六种测试菌株无效。
这恰恰证明了,宿主特异性可以在基因组中,其他区域显著进化的同时得以维持。
2 小时「团灭」细菌
全新噬菌体诞生
传统噬菌体研究慢而繁琐,研究人员又创新了筛选流程。
他们用 Gibson 组装合成基因组,转化至感受态C型大肠杆菌中,然后在 96 孔板中监测其生长抑制情况。
成功感染,会让细菌密度(OD₆₀₀)在2-3 小时内暴跌。
这个方案,让团队能快速测试 285 个设计,最终验证了 16 个功能性噬菌体,并表征它们的适应性和宿主范围。
评估 AI 设计噬菌体的实验检测
这些 AI 基因组携带了 67-392 个,相较于其最近似天然基因组的新突变。
其中,Evo-Φ2147 携带了 392 个突变,与噬菌体 NC51 的平均核苷酸同一性为 93.0%。
根据某些分类学标准,它足以被认定为一个新物种。
另外,13 个基因组包含自然界未见的突变,证明 Evo 能够利用自然进化从未涉足过的序列空间。
一个非常有趣的发现是,合成噬菌体之一 Evo-Φ36 整合了,远亲噬菌体 G4 的 DNA 包装蛋白——J蛋白(25 vs 38 个氨基酸)。
这在以往,是一个未能攻克的工程性难题。
研究人员通过冷冻电镜看到,它以独特方式嵌入衣壳结构,AI 巧妙地协调补偿突变,让全新蛋白质组合得以正常运作。
跨代追杀「耐药菌」,5 次逆转
细菌的抗生素耐药性,是现代医学面临的最紧迫挑战之一,每年有数十万,甚至更多人因此丧生。
细菌能够迅速进化出对传统抗生素的耐药性,却极大地限制了治疗效果。
而噬菌体疗法有望逆转,但自然噬菌体往往跟不上细菌进化。
在研究中,研究团队诱导了,三种对ΦX174 具有耐药性的C型大肠杆菌菌株,这些菌株的 waa 操纵子(负责修饰细菌表面受体)发生了突变。
结果显示,AI 生成的噬菌体「鸡尾酒」(cocktails),在1-5 次传代内攻克了三种耐药菌株。
然而,单独使用ΦX174,则完全无效。
值得一提的是,这些实现突破的噬菌体,是「嵌合基因组」。它们融合多个 AI 片段,突变集中在受体交互区。
序列分析表明,成功的噬菌体,结合了2-3 种不同 AI 设计的遗传元件。
这样一来,人类无需依赖自然界稀有的噬菌体,而让 AI 直接生成多样群体,形成「多重打击」,让细菌难以发展出全面的耐药性。
总而言之,AI 能快速筛选出有效的基因序列,这就让噬菌体疗法不再是碰运气的「试错」,而是精准的「设计」。
未来,人类能主动设计出领先一步的疗法,永远跑在细菌变异的前面。
基因革命 2.0,编写生命代码
如今,噬菌体疗法,正日益成为对抗多重耐药菌的有效武器。
近期,医学上的治疗靶点,主要针对植物病原体,或是大型 DNA 噬菌体。
最新研究证明,AI 模型已能捕捉进化约束,通过训练、质控和高质量验证,桥接 AI 生成序列与生物学现实。
随着模型迭代和合成成本下降,全基因组设计将开启未探索的进化空间,为生物技术和基础研究开辟全新的疆域。
从读取到写入,再到设计,这一转变,标志着人类在最基础的层面上改造生物学的能力,翻开了新的篇章。
核心作者
Brian Hie
我是斯坦福大学化学工程系的助理教授,以及 Arc Institute 创新研究员,致力于生物学与人工智能交叉领域的研究。
他曾获得了 MIT CSAIL 博士学位,本科就读于斯坦福大学。
Samuel King
Samuel King 是斯坦福大学博士研究生,目前在 Arc Institute 从事合成生物学与 ML 交叉领域的研究工作。
他本科毕业于哥伦比亚大学(UBC),获得生物学荣誉学士学位。
参考资料:
https://x.com/samuelhking/status/1968329299364376698
https://www.biorxiv.org/content/10.1101/2025.09.12.675911v1
https://arcinstitute.org/news/hie-king-first-synthetic-phage