AI在线 AI在线

Science封面:高效精准模拟构象变化,微软研究院用生成式AI重塑蛋白质功能研究

编辑丨coisini蛋白质是生命的物质基础,是生命活动的主要承担者,也是药物研发和生物技术的核心。 近年来,AlphaFold 等模型在蛋白质结构预测方面取得了突破性进展,但这些方法通常只能预测单一静态结构,难以捕捉蛋白质在功能过程中所经历的动态变化。 蛋白质并非静止不动的分子,而是处于不断变化的构象系综(conformational ensemble)中,其功能往往依赖于结构之间的转换。
图片

编辑丨coisini

蛋白质是生命的物质基础,是生命活动的主要承担者,也是药物研发和生物技术的核心。

近年来,AlphaFold 等模型在蛋白质结构预测方面取得了突破性进展,但这些方法通常只能预测单一静态结构,难以捕捉蛋白质在功能过程中所经历的动态变化。

蛋白质并非静止不动的分子,而是处于不断变化的构象系综(conformational ensemble)中,其功能往往依赖于结构之间的转换。

近期,微软研究院 AI for Science 团队提出并开源了一种生成式深度学习模型 ——BioEmu,以前所未有的效率和精度模拟了蛋白质的构象变化,为理解蛋白质功能机制和加速药物发现打开了新路径。

研究成果以《Scalable emulation of protein equilibrium ensembles with generative deep learning》为题登上了最新一期《Science》杂志封面。

图片

论文地址:https://www.science.org/doi/10.1126/science.adv9817

代码地址:github.com/microsoft/bioemu

模型地址:https://huggingface.co/microsoft/bioemu

从结构预测到功能模拟

BioEmu 基于微软研究院前期工作 DiG(Distributional Graphormer),采用扩散模型架构,结合 AlphaFold 的 Evoformer 编码器和二阶积分采样技术,旨在高效地从蛋白质构象分布中采样。

具体来说,BioEmu 通过结合 AlphaFold 数据库中的静态结构、超过 200 毫秒的分子动力学(MD)模拟数据,以及 50 万条蛋白稳定性实验数据,训练出一个能够在单张 GPU 上每小时生成上千个独立蛋白质结构的生成模型。

图片

BioEmu 能够模拟蛋白质在功能过程中出现的关键结构变化,如隐性口袋、局部解折叠和结构域重排。

图片

BioEmu 在自由能预测方面达到 1 kcal/mol 的误差水平,与毫秒级 MD 模拟和实验数据高度一致,相比分子动力学模拟实现了若干个数量级的加速。

图片

BioEmu 还能精准预测突变体的稳定性变化(ΔΔG),平均绝对误差低于 1 kcal/mol,Spearman 相关系数超过 0.6。

图片

案例研究

研究团队通过两个涉及较大蛋白质的案例,评估了 BioEmu 的应用性能:复合蛋白 II(134 个氨基酸)和四跨膜蛋白 CD9(225 个氨基酸)。

复合蛋白 II 是神经递质释放装置中的一种天然无序蛋白(IDP)。IDP 通常难以通过分子动力学(MD)进行采样,而 BioEmu 能高效模拟复合蛋白 II 的柔性结构集合,同时复现已知的二级结构元件(如中心螺旋和辅助螺旋)。

图片

对于四跨膜蛋白 CD9,预训练模型能采样到两种晶体参考结构(PDB 条目 6rlo 和 6rlr),而基于 MD 数据微调的 BioEmu 仅采样 6rlo 而排除 6rlr。这与两种结构存在于晶体环境中的观察结果一致 ——6rlr 无法在折叠的单体蛋白中实现,因此 BioEmu 正确剔除。此外,BioEmu 还成功预测了开放构象和闭合构象。

图片

目前,BioEmu 的建模对象主要是单体蛋白质。研究团队正在探索将其扩展到蛋白质复合物、蛋白 - 配体相互作用等更复杂的生物体系,并结合实验数据进一步提升模型的泛化能力和可解释性。在蛋白质科学、药物设计和合成生物学等领域,BioEmu 有望成为连接结构与功能、理论与实验的桥梁。

相关资讯

AI赋能蛋白质研究:SaprotHub让蛋白质AI模型训练和调用不再有门槛!

编辑 | ScienceAI近年来,AI 技术在蛋白质研究领域发挥了越来越重要的作用。 从 AlphaFold2 在结构预测任务上的脱颖而出,到各类蛋白质语言模型(PLMs)在功能预测方面的重大进展,生物研究者们可以利用各式各样的 AI 模型来辅助他们的研究。 然而,随着模型变得越来越复杂,如何训练和调用这些 AI 模型对于缺乏机器学习专业知识的研究者来说是一件非常具有挑战的任务,也因此限制了 AI 技术在实际研究中的应用。
1/23/2025 5:44:00 PM
ScienceAI

活性提高42倍,ML引导的无细胞表达加速酶工程,登Nature子刊

编辑 | 萝卜皮酶是人类生活中不可或缺的天然催化剂,不仅助我们消化食物,还能增强香水香味、提高洗衣效率,甚至用于疾病治疗。 科学家们正使用酶工程创造新酶,用于吸收温室气体、降解环境毒素、研发高效药物。 但是,酶工程受限于快速生成和使用大量序列功能关系数据集进行预测设计的挑战。
1/24/2025 2:55:00 PM
ScienceAI

高灵敏探索质谱,滑铁卢、中原AI院团队基于深度学习的端到端方法

编辑 | 萝卜皮基于质谱的蛋白质组学中肽段鉴定对于理解蛋白质功能和动力学至关重要。 传统的数据库搜索方法虽然应用广泛,但依赖于启发式评分函数,必须引入统计估计才能获得更高的鉴定率。 加拿大滑铁卢大学 (University of Waterloo)和中原人工智能研究院(中原 AI 院)的研究团队提出了 DeepSearch,一种基于深度学习的串联质谱端到端数据库搜索方法。
1/24/2025 2:56:00 PM
ScienceAI
  • 1