AI在线 AI在线

生物学迎来「ChatGPT时刻」:Evo构建首个AI生成的「基因组」,开启生成式基因设计时代

编辑丨coisini还记得 Evo 吗? 2024 年,由 Arc 研究所(Arc Institute)、斯坦福大学等联合开发的生物学人工智能(AI)模型 Evo(下称 Evo 1)问世,今年 2 月研究团队又重磅推出 Evo 2—— 能够预测所有物种 DNA、RNA、蛋白质的形式和功能。 现在,研究团队宣布使用 Evo 1 和 Evo 2 构建了全球首个 AI 生成的基因组(一种噬菌体基因组),Evo 研究团队主要成员、斯坦福大学计算生物学家 Brian Hie 表示:「生成式基因设计时代到来了!
图片

编辑丨coisini

还记得 Evo 吗?

2024 年,由 Arc 研究所(Arc Institute)、斯坦福大学等联合开发的生物学人工智能(AI)模型 Evo(下称 Evo 1)问世,今年 2 月研究团队又重磅推出 Evo 2—— 能够预测所有物种 DNA、RNA、蛋白质的形式和功能。

现在,研究团队宣布使用 Evo 1 和 Evo 2 构建了全球首个 AI 生成的基因组(一种噬菌体基因组),Evo 研究团队主要成员、斯坦福大学计算生物学家 Brian Hie 表示:「生成式基因设计时代到来了!」

图片

这项研究表明基因组语言模型能够捕捉进化约束,从而实现功能性基因组设计。在一定程度上,生物学迎来了「ChatGPT 时刻」。

图片

研究论文:https://www.biorxiv.org/content/10.1101/2025.09.12.675911v1

从设计单个基因到构建完整基因组

此前研究团队已经证明,Evo 系列基因组基础模型能够生成单一蛋白质及多组分系统,但其长期研究目标之一是通过生物语言模型设计出完整且具有功能活性的基因组。

不同于设计单个基因,基因组设计需要协调多个相互作用的基因和调控元件,同时维持复制能力、宿主特异性与进化适应性的平衡。这带来了单蛋白质或双组分系统设计中不曾出现的新约束条件与失效模式。

图片

研究团队开发了集计算设计与实验验证于一体的综合框架,包括针对重叠阅读框的定制化基因注释 pipeline、基因组语言模型采样所需的系统化微调(systematic fine-tuning)与提示工程(prompt engineering)技术,以及合成噬菌体基因组的新型筛选方案。

ΦX174:读取、编写与设计 DNA

由于合成基因组的生成需要明确的设计标准,基于实践与历史意义考量,研究团队选择噬菌体 ΦX174 作为设计模板。其基因组全长 5386 个核苷酸,编码 11 个基因 —— 这一尺度既处于当前 DNA 合成成本可控上限,又足够复杂以展现基因组级设计能力。其重叠基因架构构成了严格测试场景:重叠区域的突变必须同时满足多个蛋白质约束条件。此外,ΦX174 编码的多种调控元件与识别序列需精密协作,确保在宿主细胞中的正确包装与复制。

ΦX174 基因组还具有特殊历史意义:1977 年,弗雷德里克・桑格团队首次完成对其全基因组测序;2003 年,克雷格・文特尔团队首次实现其全基因组化学合成,证明基因组可从头组装;如今在 2025 年,Evo 研究团队以 ΦX174 为模板诞生了首批 AI 生成的基因组。这一演进历程标志着现代基因组学的核心能力迭代:从读取 DNA,到编写 DNA,再到设计 DNA。

图片

构建定制化基因注释

ΦX174 的重叠基因带来了首个重大挑战:由于重叠阅读框会干扰标准基因预测工具的判断(这些工具专为非重叠基因设计),常规方法最多只能识别 11 个基因中的 7 个。

因此,研究团队开发了一种新型注释 pipeline,将开放阅读框查找策略与噬菌体蛋白质数据库同源搜索相结合,成功识别出 ΦX174 的全部 11 个基因。

该定制化注释工具对评估数千条生成序列至关重要。研究团队设定至少需匹配 7 个天然 ΦX174 蛋白作为基础质量筛选标准,确保生成基因组保留噬菌体功能所需的遗传工具包。

针对噬菌体基因生成对 Evo 进行微调

尽管基础 Evo 模型已基于 200 多万个噬菌体基因组进行训练,具备生成噬菌体基因组序列的能力,但其可控性仍不足以生成类 ΦX174 基因组。

研究团队采用监督微调技术解决该问题:继续使用 14466 条微病毒科序列对 Evo 模型进行训练。通过微调,Evo 模型能专门生成与 ΦX174 密切相关的序列变体。

质量、宿主特异性与新颖性评估

为评估数千条生成序列,研究团队开发了基于序列质量、宿主特异性和进化多样性的筛选体系:既要确保基因组保持合理的基因排列,又要允许进化新颖性。同时需保证 AI 设计的噬菌体能感染实验所用的非致病性大肠杆菌 C 株。

实验表明,16 个功能性噬菌体均仅感染大肠杆菌 C 株及其近缘 W 株,在其他六种测试菌株中无生长现象,证明在保持宿主特异性的同时可实现其他区域的显著进化分歧。

实验验证

图片

测试数百个合成基因组需要重新设计传统噬菌体工作流。研究团队基于 ΦX174 的裂解周期开发了生长抑制检测法:通过 Gibson 组装合成基因组,转化至大肠杆菌 C 感受态细胞,并在 96 孔板中监测生长抑制情况。感染后在 2-3 小时内会出现 OD₆₀₀值快速下降。

该方案实现了 285 种快速测试,其中 16 个引起生长抑制的候选噬菌体经过测序验证、扩增培养,并进行了适应性与宿主范围表征。

所有功能性基因组与其最接近的天然基因组相比均携带 67-392 个新突变。其中 Evo-Φ2147 具有 392 个突变,与 NC51 噬菌体的平均核苷酸相似度为 93.0%,根据某些分类学标准可被视为新物种。13 个基因组含有任何已知天然序列中均未发现的突变,证明 Evo 能利用自然进化未曾采样过的序列。

特别值得注意的是,合成噬菌体 Evo-Φ36 整合了远缘噬菌体 G4 的 DNA 包装 J 蛋白。冷冻电镜分析显示,较短的 G4 J 蛋白(25 个氨基酸 vs38 个氨基酸)在衣壳结构中采取了独特取向。这表明人工智能能够协调复杂的补偿性突变,使新型蛋白质组合实现功能化。

图片

总的来说,这项研究表明:基因组语言模型在经过适当的训练和引导后,能够很好地捕捉进化约束,从而实现功能性基因组设计。

随着基因组语言模型的改进和合成成本的降低,全基因组设计可以探索自然选择从未尝试过的进化可能性,为生物技术和基础研究开辟新的途径。从读取基因组,到编写基因组,再到设计基因组,生物学研究将开启新的篇章。

参考内容:

https://arcinstitute.org/news/hie-king-first-synthetic-phage

https://x.com/samuelhking/status/1968329299364376698

相关资讯

生物版DeepSeek的隐秘竞争,中国模型被视为更强对手,赛诺菲10亿美金押宝!

编辑 | ScienceAI上周,美国斯坦福大学、英伟达等机构联合发布的生物学AI模型Evo2引起广泛关注,被誉为「生物版Deepseek」。 正当全球科研人员为这一突破性成果热议时,该论文中的特殊标注揭开了中国AI的实力——来自中国公司百图生科xTrimo系列大模型,被Evo2的研究人员列为「参数规模更大但尚未开源的竞争对手」,揭示中国生物大模型的崛起。 实际上,百图生科公司一直被美国市场认定为生命科学基础大模型的先行者,自2020年起一直前瞻性地在该领域布局。
3/4/2025 6:22:00 PM
ScienceAI

谷歌旗下带来细胞器动力学的「全息解码器」,启动亚像素级细胞器分析

编辑丨&细胞器经历不断的形态变化和动态相互作用,这是细胞稳态、应激反应和疾病进展的基础。 尽管细胞器的形态与运动十分重要,但由于其复杂的结构,高速的运动模式与目前现有分析技术的局限性,量化细胞器形态仍具有挑战性。 美国旧金山 Calico Life Sciences 的团队推出了一个名为 Nellie 的模型,这是一种自动化且无偏倚的管道,用于分割、跟踪和提取不同细胞内结构的特征。
3/5/2025 12:57:00 PM
ScienceAI

仅输入prompt与序列,准确率超90%,UC伯克利等提出文本生成蛋白质多模态框架

编辑丨coisini机器学习在蛋白质发现领域展现出深远的潜力,相关工具已快速应用于科学流程的辅助与加速。 当前,AI 辅助的蛋白质设计主要利用蛋白质的序列和结构信息,而为了描述蛋白质的高级功能,人们以文本形式整理了海量知识,这种文本数据能否助力蛋白质设计任务尚未得到探索。 为了填补这一空白,来自加州大学伯克利分校(UC Berkeley)、加州理工学院(California Institute of Technology)等机构的研究者提出了一个利用文本描述进行蛋白质设计的多模态框架 ——ProteinDT。
4/3/2025 2:37:00 PM
ScienceAI
  • 1