AI在线 AI在线

超越AlphaFold3,实现模型容量的规模化扩展,字节提出分子结构预测模型SeedFold

编辑丨coisini高精度生物分子结构预测对于结构生物学和药物发现至关重要,而构建基础模型最核心的环节之一在于确定模型规模化的技术方案。 折叠模型利用先验知识,在广泛的应用中展现出多功能性,包括结构生成、结合物设计、构象采样等等。 已有一些研究工作尝试探索折叠模型的规模化特性,但大多数折叠模型仍遵循 AlphaFold 的基本配置。
图片

编辑丨coisini

高精度生物分子结构预测对于结构生物学和药物发现至关重要,而构建基础模型最核心的环节之一在于确定模型规模化的技术方案。

折叠模型利用先验知识,在广泛的应用中展现出多功能性,包括结构生成、结合物设计、构象采样等等。已有一些研究工作尝试探索折叠模型的规模化特性,但大多数折叠模型仍遵循 AlphaFold 的基本配置。

最近,来自字节跳动 Seed 的研究团队提出了种子折叠模型 ——SeedFold,该模型成功实现了模型容量的规模化扩展。

图片

论文地址:https://arxiv.org/abs/2512.24354

SeedFold 通过宽度扩展和大规模数据蒸馏来提升模型容量。该研究还推出了 SeedFold-Linear—— 一种采用线性三角注意力机制的高效变体。两种模型在 FoldBench 基准测试中均取得 SOTA 结果,在多数蛋白质相关任务上超越了 AlphaFold3。

SeedFold

SeedFold 采用 AlphaFold3 的架构,并针对大规模扩展进行了关键改进。SeedFold 的创新主要体现在三个方面:

  • 首先,针对 Pairformer 提出有效的宽度扩展策略,以提升其表征能力;

  • 其次,引入一种创新的线性三角注意力机制,通过降低计算复杂度实现了高效规模化;

  • 最后,构建了大规模蒸馏数据集,显著扩充了训练样本规模。

模型规模化 该研究从三个选项(加深 Pairformer 模块深度 [48 层→96 层]、加深 Structure 模块深度 [24 层→48 层]、拓宽 Pairformer 模块宽度 [128 维→256 维→384 维→512 维])中,确定了控制模型规模扩展的关键因素。实验表明,折叠模型中的模块深度已足以支持潜在空间推理,而模型容量主要受限于配对表征的隐藏维度(128 维)。

图片图片

线性三角注意力 通过检查 AlphaFold3 的各个组成部分,该研究识别出计算瓶颈 ——Pairformer 中的三角运算。三角运算的计算复杂度随蛋白质序列长度呈三次方增长,消耗大量时间和内存。研究团队因此提出用线性注意力替代基于 softmax 的三角注意力,从而将复杂度从三次方降至二次方。

图片

大规模数据蒸馏 具有高质量和多样性的大规模数据集是深度学习模型成功的关键要素。然而,实验确定的蛋白质结构数量仍然有限。该研究构建了一个源自 AlphaFold2 的大规模数据集,包含 2650 万个样本,相比实验结构数据,训练数据规模扩大了 147 倍。

图片

实验评估

为了评估 SeedFold 的性能,该研究在 FoldBench 上进行了综合评估,将 SeedFold 与 AlphaFold 3、Boltz-1、Protenix 和 Chai-1 等最新方法进行了比较。

图片

结果显示,在所有评估指标上,SeedFold 均超越了现有开源模型。值得注意的是,SeedFold 和 SeedFold-Linear 展现出不同的学习特性:尽管两者在单体蛋白质和蛋白质 - 蛋白质复合物任务上都超越了 AlphaFold3,但它们的优势表现具有任务特异性。

图片

SeedFold 在抗体 - 抗原相互作用预测中表现优于 AlphaFold3,而 SeedFold-Linear 则在蛋白质 - 配体相互作用预测中表现突出。这一发现凸显了结合异构注意力机制对于优化特定应用场景模型性能的重要价值。

图片

感兴趣的读者可以阅读论文原文,了解更多研究内容。

相关资讯

活性提高42倍,ML引导的无细胞表达加速酶工程,登Nature子刊

活性提高42倍,ML引导的无细胞表达加速酶工程,登Nature子刊

编辑 | 萝卜皮酶是人类生活中不可或缺的天然催化剂,不仅助我们消化食物,还能增强香水香味、提高洗衣效率,甚至用于疾病治疗。 科学家们正使用酶工程创造新酶,用于吸收温室气体、降解环境毒素、研发高效药物。 但是,酶工程受限于快速生成和使用大量序列功能关系数据集进行预测设计的挑战。
1/24/2025 2:55:00 PM ScienceAI
AI赋能蛋白质研究:SaprotHub让蛋白质AI模型训练和调用不再有门槛!

AI赋能蛋白质研究:SaprotHub让蛋白质AI模型训练和调用不再有门槛!

编辑 | ScienceAI近年来,AI 技术在蛋白质研究领域发挥了越来越重要的作用。 从 AlphaFold2 在结构预测任务上的脱颖而出,到各类蛋白质语言模型(PLMs)在功能预测方面的重大进展,生物研究者们可以利用各式各样的 AI 模型来辅助他们的研究。 然而,随着模型变得越来越复杂,如何训练和调用这些 AI 模型对于缺乏机器学习专业知识的研究者来说是一件非常具有挑战的任务,也因此限制了 AI 技术在实际研究中的应用。
1/23/2025 5:44:00 PM ScienceAI
高灵敏探索质谱,滑铁卢、中原AI院团队基于深度学习的端到端方法

高灵敏探索质谱,滑铁卢、中原AI院团队基于深度学习的端到端方法

编辑 | 萝卜皮基于质谱的蛋白质组学中肽段鉴定对于理解蛋白质功能和动力学至关重要。 传统的数据库搜索方法虽然应用广泛,但依赖于启发式评分函数,必须引入统计估计才能获得更高的鉴定率。 加拿大滑铁卢大学 (University of Waterloo)和中原人工智能研究院(中原 AI 院)的研究团队提出了 DeepSearch,一种基于深度学习的串联质谱端到端数据库搜索方法。
1/24/2025 2:56:00 PM ScienceAI