AI在线 AI在线

精度高,速度快!西湖大学团队开发端到端电子显微镜图像分析深度学习模型

编辑 | 萝卜皮冷冻电镜拍图虽然很高清,但是 AI 解结构却像新手拼乐高——步骤繁琐易跑偏,算力烧钱还挑数据。 为了应对这些挑战,西湖大学与新加坡国立大学的研究人员提出了 end-to-end and efficient CryoFold(E3-CryoFold),这是一种支持端到端训练和一次性推理的深度学习方法。 E3-CryoFold 使用三维和序列 Transformer 从密度图和序列中提取特征,并使用交叉注意力模块整合这两种模态。
图片

编辑 | 萝卜皮

冷冻电镜拍图虽然很高清,但是 AI 解结构却像新手拼乐高——步骤繁琐易跑偏,算力烧钱还挑数据。

为了应对这些挑战,西湖大学与新加坡国立大学的研究人员提出了 end-to-end and efficient CryoFold(E3-CryoFold),这是一种支持端到端训练和一次性推理的深度学习方法。

E3-CryoFold 使用三维和序列 Transformer 从密度图和序列中提取特征,并使用交叉注意力模块整合这两种模态。它使用 SE(3) 图神经网络基于提取的特征构建原子结构。

E3-CryoFold 模型在源自蛋白质数据库结构的模拟密度图上进行了预训练。与 Cryo2Struct 相比,E3-CryoFold 将生成结构的平均模板建模得分提高了 400%,并且明显优于 ModelAngelo,而这一巨大进步仅使用了这些方法所需推理时间的千分之一。

该研究以「End-to-end cryo-EM complex structure determination with high accuracy and ultra-fast speed」为题,于 2025 年 6 月 24 日发布在《Nature Machine Intelligence》。

图片

自显微镜发明以来,科学家们一直致力于更清晰地观察蛋白质复合物,以阐明其结构和功能以及它们如何影响生物过程。

在结构生物学领域数百年的技术进步中,低温电子显微镜(cryo-EM)已成为一项关键技术,并于 2017 年荣获诺贝尔奖。

冷冻电镜能够生成接近原子分辨率的密度图,揭示大分子的形状和相互作用,而无需结晶,也不会损坏样品。对于研究大分子行为的研究人员来说,将这些三维(3D)密度图解读为原子结构模型是关键的一步,然而,这一过程本身就极具挑战性。

它需要高水平的专业知识来指导解释,并且由于密度图的高维性,计算机图形程序会产生大量的计算成本。此外,缺乏准确的模板会严重影响结构测定的准确性和效率。

人工智能带来了新的可能性,但是现有方法通常需要多阶段训练和推理,导致效率低下和结果不一致;在将预测的原子坐标与序列比对时经常出现偏差,且计算成本巨大;深度学习等 AI 方法往往需要大量训练数据,而可用数据集有限。

迄今为止,电子显微镜数据库中分辨率优于 4 Å 的低温电镜结构仅不到 13,000 个,并且其中许多是冗余的。因此,现有低温电镜密度图的规模有限,限制了深度学习方法有效推广到更广泛的真实样本的能力。

E3-CryoFold

为了有效应对这些挑战,西湖大学的研究团队提出了 E3-CryoFold,它是一个端到端训练和一次性推理模型。

图片

图示:E3-CryoFold 的架构和管线。(来源:论文)

具体来说,研究人员对密度图和序列进行预处理,以对齐数据并加快训练过程。然后,密度图和序列分别输入到 3D 和序列 Transformer 中,同时使用交叉注意力模块整合来自两种模态的空间和序列信息。随后,他们构建一个等变图神经网络 (GNN),基于组合的空间序列特征生成 3D 原子结构。这种方法通过将空间特征直接注入序列表征中,避免了结构与序列之间的对齐损失。

与以往的方法不同,E3-CryoFold 促进了端到端训练,允许用户输入完整的低温电子显微镜密度图和序列(或使用不包含序列信息的模型),通过单个模型直接获取原子结构。这便消除了冗余的多阶段流程,从而显著提升了效率和准确率。

值得注意的是,该团队建立了一个包含 163,284 个蛋白质数据库 (PDB) 结构模拟的低温电子显微镜密度图的训练数据集,该数据集通过预训练增强了模型的泛化能力。

研究人员在两个包含不同分辨率和长度的测试数据集上验证了 E3-CryoFold 的泛化能力,并将其性能与其他稳健的基准方法进行了比较。结果表明,其准确率和效率显著提升,与 ModelAngelo、Cryo2Struct 和 Phenix 等已有方法相比,E3-CryoFold 推理时间仅为这些方法的千分之一。

局限性与未来

尽管如此,E3-CryoFold 仍面临一些挑战。

首先,密度图的形状不规则,需要将其调整为统一的形状,这可能会引入偏差并导致空间信息丢失,尤其是在较大的图谱中。

其次,由于 E3-CryoFold 生成的原子坐标不受约束,预测结构与目标结构之间的均方根标准差可能相对不稳定。研究人员表示,将 E3-CryoFold 预测与基于密度图的原子坐标相结合,可以有效缓解这些问题。

最后,E3-CryoFold 目前仅支持残基骨架的建模,而同样关键的侧链尚未被考虑。侧链建模代表了 E3-CryoFold 的重大扩展,也是未来发展的重要领域。

论文链接:https://www.nature.com/articles/s42256-025-01056-0

相关资讯

4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源

编辑 | ScienceAI蛋白质结构相比于序列往往被认为更加具有信息量,因为其直接决定了蛋白质的功能。而随着AlphaFold2带来的巨大突破,大量的预测结构被发布出来供人研究使用。如何利用这些蛋白质结构来训练强大且通用的表征模型是一个值得研究的方向。西湖大学的研究人员利用Foldseek来处理蛋白质结构,将其编码成一维的离散token,并与传统的氨基酸进行结合,形成了结构感知词表(Structure-aware Vocabulary),以此将结构信息嵌入到模型输入中,增强模型的表征能力。在预训练上,论文使用了目
4/19/2024 3:38:00 PM
ScienceAI

首次,西湖大学用蛋白质语言模型定向改造碱基编辑器,登Cell子刊

编辑 | ScienceAI在基因组编辑领域,单碱基编辑器通过将可编程的DNA结合蛋白与碱基修饰酶融合,实现在不引起DNA双链断裂的情况下,对基因组中特定碱基进行精确修改。尽管依赖于胞嘧啶(C)碱基编辑器(CBE)或腺嘌呤(A)碱基编辑器(ABE)介导的脱氨反应,这些编辑器能够实现C到胸腺嘧啶(T)或A到鸟嘌呤(G)的突变,但它们在诱导所有类型的点突变,尤其是颠换突变方面仍存在局限性。近期,西湖大学团队在《Molecular Cell》上发表了一篇题为「Protein language models-assiste
5/7/2024 6:45:00 PM
ScienceAI

如何让细胞进行计算?国内四高校提出生物计算元器件设计全新方法,登Cell

编辑 | 萝卜皮作者 | 论文团队细胞犹如一台计算机,每时每秒都在接收、分析和处理来自环境中的不同信息:外界信息通过细胞内高度并行的信号转导途径进行分析和处理,进而以预定义的方式从「存储设备」(即 DNA)中读取信息(基因的表达)或写入指令(DNA 修饰和编辑),指导自身或周围细胞对环境信息做出响应。一直以来,如何有效利用生物体本身的计算能力,通过对生物体进行改造使之能够执行人类给定的计算任务,并由此开发出基于生物系统的新概念计算机都是计算机科学与生物技术领域交叉融合的热点问题。近期,来自国防科技大学、西湖大学、浙
8/1/2024 4:06:00 PM
ScienceAI
  • 1