AI在线 AI在线

登《Cell》,中科院高彩霞等开发AiCE:一种AI蛋白质工程通用策略

编辑丨&蛋白质工程长期受限于低成功率与高成本,理想的蛋白质工程策略需要以最少的工作量实现最佳性能。 当前基于 AI 的蛋白质工程技术通常计算量大,因此迫切需要更易于使用且用户友好的替代方案,这些方案需要保持预测的准确性并在研究社区推广使用。 中国科学院高彩霞团队开发的 AiCE(AI-informed constraints for protein engineering)框架通过将结构和进化约束整合到通用反向折叠模型中,实现了快速高效的蛋白质进化,无需专门训练。
图片

编辑丨&

蛋白质工程长期受限于低成功率与高成本,理想的蛋白质工程策略需要以最少的工作量实现最佳性能。

当前基于 AI 的蛋白质工程技术通常计算量大,因此迫切需要更易于使用且用户友好的替代方案,这些方案需要保持预测的准确性并在研究社区推广使用。

中国科学院高彩霞团队开发的 AiCE(AI-informed constraints for protein engineering)框架通过将结构和进化约束整合到通用反向折叠模型中,实现了快速高效的蛋白质进化,无需专门训练。

该研究以「Advancing proteine volution with inverse folding models integrating structural and evolutionary constraints」为题,于 2025 年 7 月 7 日刊登于《Cell》。

图片

论文链接:https://www.cell.com/cell/abstract/S0092-8674(25)00680-4

反向折叠模型

传统的蛋白质模型面临多重困境:成功率低下,迭代成本高、通用性缺失。虽然近几年来,使用深度学习模型的蛋白质工程方法取得了出色的成果,但它们通常需要大量计算资源,泛化性也相当有限。

团队注意到,广义蛋白质反向折叠模型,如 ESM-IF1 和 ProteinMPNN,是在天然蛋白质结构和序列上训练的,所以它们可以捕捉由进化动力学塑造的蛋白质序列的复杂分布模式。

鉴于此功能,可以将其直接应用反向折叠模型,而无需额外的 AI 模型训练。事实上,最近就有成果表明,简单地从反向折叠模型输出中采样就足以识别高适应度(HF)突变并实现抗体进化,但这样是否适用于更复杂的大型蛋白质,亦或者是对单一和组合突变设计的成功率仍然存疑。

团队所提出的 AiCE 模块旨在预测高适应性(HF)单个氨基酸替换,通过广泛采样逆折叠模型并结合结构约束,可大幅提高预测准确性。

图片

图示:AiCE 作为 AI 驱动的蛋白质工程方法。(图源:论文)

AiCE 与模型架构无关,可以优化简单的蛋白质结构和复杂的功能酶。团队在八种不同的蛋白质工程任务中评估了 AiCE,实现了 11% 到 88% 的 HF 突变预测成功率。

基于这些结果,该团队又开发了一系列精确高效的碱基编辑器,包括编辑窗口更小的 enABE8e、保真度显著提高的 enSdd6-CBE 和将线粒体编辑效率提高 14.3 倍的 enDdd1-DdCBE。

成果简介

与其他方法相比,AiCE 在 60 个深度突变扫描(DMS)数据集中表现出色,其性能提高了 36% 至 90%。其在复杂蛋白质和蛋白质-核酸复合物中的有效性也得到了验证,仅结合结构约束就提高了 37% 的准确性。

在 31 个 DMS 数据集上,团队需要评估该模块是否可以仅通过反向折叠模型输出的直接采样来识别 HF 突变,而无需额外过滤。

图片

图示:AiCE 预测各种蛋白高适应度突变的性能分析。(图源:论文)

从结果而言,预测的突变具有很高比例的积极适应度结果。在所有模型中,没有额外结构约束的 HF 突变预测的准确性为 12%,单个精度为 12%、9% 和 12%。这些结果表明,反向折叠模型可以有效地识别 HF 突变,尽管需要进一步验证。

而倘若将分析扩展到 29 个额外的 DMS 文库,最终结果证实,柔性区域的预测精度明显高于非柔性区域(<0.0001)。Logistic 回归分析进一步支持了这一趋势,表明与非灵活区域的预测相比,对灵活区域的预测被归类为 HF 的可能性高 18%(p<0.001)。

除开基础研究之外,AiCE 还在复杂蛋白质工程等领域有非常优异的发挥。

第一个实验的目标是优化 TadA8e,它的编辑窗口相对较宽,会导致非预期的旁观者编辑(bystander editing)。并且,它在某些靶位点的编辑效率有限,已被证明很难使用传统技术进行补救。

图片

图示:评估 AiCE 在生成 HF 多突变的可解释预测方面的性能。(图源:论文)

借由 AiCE 的协助,生成了 122 个单突变,并将这些突变引入 ABE,在细胞的三个内源性靶位点对其进行了测试。HF 突变为与野生型 TadA8e 酶相比,编辑效率至少提高 10% 的突变。

实验中确定了 13 个这样的突变。其中 11 个由  AiCE 提出,顶级变体的编辑效率提高了约 47%。 AiCE-ProteinMPNN 的预测准确率最高(35%),优于其他 AI 模型。

除此之外,团队使用 AiCE 框架,成功进化出了八种具有不同结构和功能的蛋白质,包括脱氨酶、核定位序列、核酸酶和逆转录酶。这些工程化蛋白质使研究者能够创建几种下一代碱基编辑器,适用于精准医疗和分子育种。

这些包括:enABE8e,一种胞嘧啶碱基编辑器,其编辑窗口宽度减少了约 50%;enSdd6-CBE,一种腺嘌呤碱基编辑器,其准确性提高了 1.3 倍;以及 enDdd1-DdCBE,一种线粒体碱基编辑器,其活性提高了 13 倍。

精准设计的时代

AiCE 将蛋白质工程从「经验驱动」转向「数据与约束双驱动」—— 通过反向折叠模型挖掘序列 - 结构关联,最终实现从单突变到多突变的高效设计。

AiCE 代表了一种简单、高效且广泛适用的蛋白质工程策略。通过解锁现有 AI 模型的潜力,它为该领域提供了有前景的新方向,并增强了 AI 驱动的蛋白质重设计的可解释性。

研究团队开发的碱基编辑器已展现临床转化潜力,而对核酸酶、逆转录酶的改造则证明了其跨场景适用性。

未来的工作中,涉及分子动力学模拟或冷冻电镜结构分析的研究可能会带来更深入的机理见解,并有助于完善 AiCE 框架。

相关资讯

活性提高42倍,ML引导的无细胞表达加速酶工程,登Nature子刊

编辑 | 萝卜皮酶是人类生活中不可或缺的天然催化剂,不仅助我们消化食物,还能增强香水香味、提高洗衣效率,甚至用于疾病治疗。 科学家们正使用酶工程创造新酶,用于吸收温室气体、降解环境毒素、研发高效药物。 但是,酶工程受限于快速生成和使用大量序列功能关系数据集进行预测设计的挑战。
1/24/2025 2:55:00 PM
ScienceAI

AI赋能蛋白质研究:SaprotHub让蛋白质AI模型训练和调用不再有门槛!

编辑 | ScienceAI近年来,AI 技术在蛋白质研究领域发挥了越来越重要的作用。 从 AlphaFold2 在结构预测任务上的脱颖而出,到各类蛋白质语言模型(PLMs)在功能预测方面的重大进展,生物研究者们可以利用各式各样的 AI 模型来辅助他们的研究。 然而,随着模型变得越来越复杂,如何训练和调用这些 AI 模型对于缺乏机器学习专业知识的研究者来说是一件非常具有挑战的任务,也因此限制了 AI 技术在实际研究中的应用。
1/23/2025 5:44:00 PM
ScienceAI

高灵敏探索质谱,滑铁卢、中原AI院团队基于深度学习的端到端方法

编辑 | 萝卜皮基于质谱的蛋白质组学中肽段鉴定对于理解蛋白质功能和动力学至关重要。 传统的数据库搜索方法虽然应用广泛,但依赖于启发式评分函数,必须引入统计估计才能获得更高的鉴定率。 加拿大滑铁卢大学 (University of Waterloo)和中原人工智能研究院(中原 AI 院)的研究团队提出了 DeepSearch,一种基于深度学习的串联质谱端到端数据库搜索方法。
1/24/2025 2:56:00 PM
ScienceAI
  • 1