港中大&之江实验室&华为&南医大提出逆向蛋白质折叠计划模型 ProRefiner

编纂 | 紫罗逆向蛋白质折叠（Inverse Protein Folding，IPF）是蛋白质计划的一项重要使命，其目的是计划与给定主链构造兼容的序列。尽管该使命的算法发展迅速，但现有方式在生成序列时往往依赖于位于局部邻域的噪声预测残基。为了解决这个限制，来自香港中文大学、之江实验室、华为诺亚方舟实验室和南京医科大学的研讨团队，提出了一种基于熵的残差选择方式来消除输入残差上下文中的噪声。此外，研讨还引入了 ProRefiner——一种内存高效（memory-efficient）的全部图注意力模型，可以充分操纵去噪上

编纂 | 紫罗

逆向蛋白质折叠（Inverse Protein Folding，IPF）是蛋白质计划的一项重要使命，其目的是计划与给定主链构造兼容的序列。尽管该使命的算法发展迅速，但现有方式在生成序列时往往依赖于位于局部邻域的噪声预测残基。

为了解决这个限制，来自香港中文大学、之江实验室、华为诺亚方舟实验室和南京医科大学的研讨团队，提出了一种基于熵的残差选择方式来消除输入残差上下文中的噪声。此外，研讨还引入了 ProRefiner——一种内存高效（memory-efficient）的全部图注意力模型，可以充分操纵去噪上下文。

所提出的方式在不同计划 setting 的多个序列计划基准上实现了最先进的性能。此外，还证明了 ProRefiner 在重新计划转座子相关转座酶 B（TnpB）方面的适用性，提出的 20 个变体中有 6 个表现出改进的基因编纂活性。

该研讨以《ProRefiner: an entropy-based refining strategy for inverse protein folding with global graph attention》为题，于 2023 年 11 月 16 日发布在《Nature Communications》上。

港中大&之江实验室&华为&南医大提出逆向蛋白质折叠计划模型 ProRefiner

当前深度学习建模蛋白质构造方式

计算蛋白质计划，即计划具有特定构造或功能的蛋白质，它已经成为一种强大的工具，可以促进对进化过程尚未访问的序列或拓扑空间的探索，并发现性能更好的蛋白质。它在膜蛋白计划、酶计划等方面取得了成功。

作为计算蛋白质计划的子使命之一，逆向蛋白质折叠（IPF）的问题是找到可以折叠成给定三维（3D）构造的氨基酸序列的问题，这是非常重要的，因为承载特定功能通常需要获得特定的主链构造为前提。

如何建模和操纵残基相互作用一直是各种 IPF 算法的焦点。

港中大&之江实验室&华为&南医大提出逆向蛋白质折叠计划模型 ProRefiner

图 1：操纵残基间特征的不同方式。（来源：论文）

近年来，深度学习已成功应用于蛋白质构造建模和预测。已有研讨通过深度学习来解决 IPF。早期的方式通常将蛋白质构造建模为独立残基序列或原子点云，并采用非自回归解码方案，如图 1a 所示。最近的一些研讨使用邻近图来表示蛋白质构造，其中残基是节点，残基相互作用直接建模为 edge。通常，使用具有自回归解码方式的掩码编码器-解码器架构（如图 1b 所示）。

最近，ABACUS-R 中提出了类似的解码方案（如图 1c 所示）。该方式假设在解码中心残差时所有相邻残差类型都是已知的。从随机初始序列开始，它根据残差的邻域递归更新残差，直到收敛。然而，事实证明，对先前预测的依赖很容易出现误差累积问题。嘈杂的残基信息被引入上下文中并通过图构造传播，而如果可以使用并操纵更多高质量的残基相互作用，则恢复目标残基将更容易且更准确。

蛋白质序列计划模型 ProRefiner

研讨人员将上述问题总结为高质量残基相互作用的选择和操纵。为了解决这些问题，研讨人员提出了蛋白质序列计划模型 ProRefiner。该模型的使命是根据蛋白质构造进行类似 BERT 的序列修复。

ProRefiner 的模型架构是一堆内存高效的全部图注意力层，如图 2 所示。具体来说，注意力机制根据任意两个节点的特征计算它们之间的注意力权重。对于图来说，这需要存储和操作大小等于节点数量的方阵，这忽略了图构造的稀疏性，并将内存复杂度增加到节点数量的二次方，从而带来了可扩展性问题。

港中大&之江实验室&华为&南医大提出逆向蛋白质折叠计划模型 ProRefiner

图 2：ProRefiner 的模型架构。（来源：论文）

该研讨的目标是计划一种针对图量身定制的基于注意力的模型，该模型（1）内存效率高，（2）保持依赖关系的全部视图，（3）完全合并 edge 特征。

双管齐下

实验表明，所提方式在处理整个序列计划和部分序列计划设置方面都是有效的。特别是，在转座子相关转座酶 B 的单点突变计划使命上验证了 ProRefiner，这是部分序列计划的一种特殊情况，其中只能修改一个残基。所提出的 ProRefiner 从模型推荐的 20 个突变体中成功识别出了 6 个基因编纂活性有所改善的变体。

港中大&之江实验室&华为&南医大提出逆向蛋白质折叠计划模型 ProRefiner

图 3：TnpB 单点突变计划的流程和结果。（来源：论文）

研讨人员表示：「我们试图通过提出一种逆向蛋白质折叠的方式，朝着更好地建模和学习蛋白质构造内的体间相互作用迈出一步。」

该研讨开发了一种双管齐下的方式，结合了残基选择技术和内存高效的全部图注意模型，它们共同作用以实现高质量残基相互作用的有效选择和操纵。

实验表明，所提出的 ProRefiner 能够捕获有意义的残基间键，并在多个蛋白质计划基准上实现高序列恢复。还应用该模型重新计划了 TnpB，并成功发现了六个具有增强编纂活性的突变体。研讨结果凸显了该方式在促进功能特性改进的蛋白质计划方面的潜力。

此外，该研讨提出的内存高效图注意力模块提供了一种对全部依赖关系至关重要的图构造数据进行建模的有效方式。未来潜在的研讨方向可能涉及将该模块应用于其他蛋白质相关使命以及其他生物分子的检测。

论文链接：https://www.nature.com/articles/s41467-023-43166-6

{{userData.name}}已认证

港中大&之江实验室&华为&南医大提出逆向蛋白质折叠计划模型 ProRefiner

通过深度进修预测凝结光阴分岔

中国迷信院团队利用AI大模型训练手艺解决同步辐射海量数据处理

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

Meta 用 AI 生成北极光图片，遭网友怒喷

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

特斯拉人形机器人 Optimus 现场做饮料，员工证实有人在远程控制

研究：AI 医疗建议存巨大安全隐患，22% 的回答可能致死