Struct2Graph:鉴于布局的蛋白质-蛋白质相互作用展望的图注意收集

编辑 | 萝卜皮开发用于在分子和纳米尺度上分解蛋白质-蛋白质相互作用(PPI)的新步骤可以深入了解细胞内信号通路,并将提高对蛋白质功能以及其他生物和非生物来源的纳米级布局的理解。计算工具的最新进展,特

编辑 | 萝卜皮

图片

开发用于在分子和纳米尺度上分解蛋白质-蛋白质相互作用(PPI)的新步骤可以深入了解细胞内信号通路,并将提高对蛋白质功能以及其他生物和非生物来源的纳米级布局的理解。计算工具的最新进展,特别是涉及现代深度进修算法的工具,已被证明可以补充描述和合理化 PPI 的实验步骤。

然而,现有的大多数 PPI 展望工作都利用蛋白质序列信息,因此难以解释蛋白质链的三维组织。

在近期的一项研究中,印度塔塔咨询服务公司与美国密歇根大学的研究人员共同解决了这个问题,并描述了一种鉴于图注意收集的 PPI 分解,称为 Struct2Graph,用于直接从折叠蛋白球的布局数据中辨别 PPI。该步骤能够在由相等数量的正负对组成的平衡集上以 98.89% 的准确度展望 PPI。在正负对比例为 1:10 的不平衡集上,Struct2Graph 实现了 99.42% 的五倍交叉验证平均准确率。

此外,Struct2Graph 可以潜在地辨别可能有助于形成蛋白质-蛋白质复合物的残基。针对两种不同的相互作用类型测试重要残基的鉴定:(a)具有多个配体竞争相同结合区域的蛋白质,(b)动态蛋白质-蛋白质粘附相互作用。Struct2Graph 以 30% 的灵敏度、89% 的特异性和 87% 的准确度辨别相互作用的残基。

该研究以「Struct2Graph: a graph attention network for structure based predictions of protein–protein interactions」为题,于 2022 年 9 月 10 日发布于《BMC Bioinformatics》。

图片

蛋白质-蛋白质相互作用(PPI)是许多生物过程的基础。对人类蛋白质组的分解表明,大多数蛋白质并非单独发挥作用,而是作为多单元复合物的一部分。事实上,PPI 是信号转导、代谢调节、环境感知和细胞组织的核心部分。

在这些过程中,PPI 可以改变酶动力学、促进底物通道、形成新的结合位点、使蛋白质失活或改变蛋白质相对于底物的特异性。由于 PPI 在生命系统中无处不在,能够表征这些相互作用有望进一步了解细胞过程,并为疾病治疗和药物发现提供不可或缺的工具。PPI 及其数学描述对于从其他纳米级构建块(包括但不限于脂质、糖、聚合物、纳米级缀合物和无机纳米粒子)创建蛋白质类似物也是必不可少的。学界已采用许多策略来解码主要针对分子尺度数据和氨基酸序列的 PPI。

高通量实验技术如双杂交筛选、串联亲和纯化和质谱已被用于创建蛋白质相互作用收集。然而,对这些传统步骤准确性不足、实验吞吐量低和成本高的担忧,激发了对可补充传统和呆板人实验协议的计算步骤的研发。计算步骤可以根据蛋白质的遗传背景、氨基酸序列或布局信息的数据来展望蛋白质是否会相互作用。在确定一对蛋白质是否相互作用时,基因组学分解会考虑基因融合、常见物种之间的保护(系统发育分解)和进化历史等因素。

PPI 分解的典型计算技术利用两种蛋白质的氨基酸序列来确定是否发生相互作用。已经提出了许多特点,例如公共子序列的频率和自协方差,以将不同长度的序列转换为统一大小的表示。鉴于序列的步骤最近能够利用蛋白质数据库和呆板进修技术进行高精度展望。

来自序列的蛋白质-蛋白质复合物的三维(3D)布局可以通过 CO-threading 算法(COTH)展望,该算法从已解决的复杂布局数据库中辨别蛋白质复合物的模板。COTH 利用评分功能和布局信息比对氨基酸链序列。DeepPPI 模型利用人工神经收集展望交互,该收集将捕获序列的组成、分布和顺序的特点向量作为输入。DeepFE 对氨基酸序列利用自然语言处理算法来创建适合作为神经收集分解输入的序列的低维嵌入。尤其是 DeepFE,已被证明非常有效,在酿酒酵母和人类数据集上的展望准确率分别为 94.78% 和 98.77%。

事实上,大多数鉴于深度进修的步骤已被证明可以实现高 PPI 展望精度,因为它们具有更大的表示能力。除了纯粹依赖鉴于序列的信息外,现代呆板进修步骤通常还结合收集级信息来进行 PPI 展望。在 PPI 收集中,每个节点代表一个蛋白质,而它们之间的边代表相互作用。因此,展望任何两个节点之间的交互是一个变相的链接展望问题。

最近,有些步骤利用收集布局以及利用氨基酸序列的矢量化表示来获得更强的展望性能。尽管取得了成功,但上述鉴于序列的步骤并未推广到与蛋白质相似规模的更广泛类别的化合物,这些化合物同样能够与不鉴于氨基酸的蛋白质形成复合物,因此缺乏鉴于序列的等效表示 。

虽然可以准确展望蛋白质与 DNA 的相互作用,但鉴于呆板进修的展望高分子量脂质、糖、聚合物、树枝状聚合物和无机纳米颗粒的蛋白质复合物的步骤在纳米医学和纳米诊断学中受到广泛关注,但在实验人员中并不广为人知,尽管随着蛋白质和纳米颗粒的统一布局描述符的发展,这一方向取得了重大进展。

因此,考虑到蛋白质布局及其可变的非蛋白质、仿生和非生物对应物的展望计算步骤成为可能。一些步骤利用蛋白质的 3D 布局展望相互作用,利用鉴于知识的步骤来评估候选蛋白质与模板蛋白质复合物的布局相似性。由于这种步骤需要有关更大复杂的详细信息,无模板对接步骤分解未结合的蛋白质成分,并从大量潜在的相互作用位点中辨别出最有希望的相互作用。虽然对接步骤已经显示出对某些蛋白质的成功,但它们面临着蛋白质在相互作用过程中发生构象变化的困难。许多这些布局步骤也作为呆板进修模型的基础。

2012 年,Zhang QC 团队开发了 PrePPI,它利用氨基酸序列和系统发育特点作为朴素贝叶斯分类器的输入。2018 年 Northey TC 团队开发了 IntPred,它将蛋白质分割成一组补丁,将 3D 布局信息整合到一个特点集中,以展望与多层感知收集的交互。这些模型在精心策划的交互数据库上进行训练,描述蛋白质之间的二元相互作用以及相应的接口位点或原子。

在最近的一项工作中,印度塔塔咨询服务公司与美国密歇根大学的研究人员迈出了评估蛋白质与其他纳米布局的超分子相互作用的通用步骤的第一步。与氨基酸氨基酸序列信息相比,所提出的步骤从晶体学数据确定蛋白质纳米级表示中蛋白质-蛋白质复合物形成的概率。

图片

图示:Struct2Graph 架构示意图。(来源:论文)

该团队开发了一个相互图注意力收集和一个相应的计算工具 Struct2Graph,以仅从 3D 布局信息展望 PPI。Struct2Graph 没有利用几个蛋白质特定的特点,例如疏水性、溶剂可及表面积(SASA)、电荷、ngram 频率等,而是利用仅利用原子的 3D 位置获得的鉴于图形的蛋白质球表示。这种鉴于图的解释允许神经信息传递,以实现蛋白质的有效表示进修。

Struct2Graph 建立在该团队之前关于代谢途径展望工作的基础上,该工作表明,小分子和肽的等效鉴于图的布局表示与图卷积收集相结合,显著优于其他涉及计算各种生化特点作为输入的分类器。这种步骤还利用图论的泛化来描述类似于 PPI 的复杂纳米级组件。

该步骤能够在由相等数量的正负对组成的平衡集上以 98.89% 的准确度正确展望 PPI。在正负对比例为 1:10 的不平衡集上,Struct2Graph 实现了 99.42% 的五倍交叉验证平均准确率。Struct2Graph 不仅优于经典的鉴于特点的呆板进修步骤,而且优于其他现代深度进修步骤,例如利用序列信息和特点选择进行 PPI 展望的 Deep-PPI 和 DeepFE-PPI。

除了 PPI 展望的高精度之外,Struct2Graph 还提供了许多优势。与利用几何仿生学思想的 ML 算法类似,Struct2Graph 只需要单个蛋白质的 3D 布局。

另外,虽然这里研究人员专注于蛋白质相互作用,但通过在他们的分解中仅利用原子的位置,该框架可以推广到其他可用 3D 信息的分子布局。此外,Struct2Graph 还能够深入了解蛋白质相互作用的性质。通过其注意体制,该模型可以潜在地辨别可能有助于形成蛋白质-蛋白质复合物的残基。与其他模型不同,Struct2Graph 能够以无监督的方式生成这些数据,因此不需要通常无法获得的蛋白质复合物信息。

重要残基的鉴定针对两种不同的相互作用类型(训练集的一部分)进行测试:(a)具有多个配体竞争相同结合区域的蛋白质,(b)动态蛋白质 – 蛋白质粘附相互作用。Struct2Graph 以 30% 的灵敏度、89% 的特异性和 87% 的准确度辨别相互作用的残基。

另外,在已知的 2724 个致病 SAV 和 1364 个多态性中,该团队的注意力体制将所有致病 SAV 中的 33.55% 确定为重要的(注意力权重在前 20% 以内),而 85.30% 的多态性被提议的注意体制确定为不重要,表明该团队先前建立的 SAV 研究与提议的注意体制确定的重要残基之间存在显著重叠。

图片

图示:蛋白质和蛋白质图。(来源:论文)

总之,该团队利用第一个鉴于 3D 布局的图形注意收集来解决 PPI 展望问题。新颖的相互注意体制通过其无监督的知识选择过程提供了对可能交互站点的洞察。研究表明,从单个蛋白质的图布局中进修到的相对低维的特点嵌入优于其他鉴于全局蛋白质特点的现代呆板进修分类器。另外,通过对单个氨基酸变异的分解,注意力体制显示出对致病残基变异的偏好优于良性多态性,表明它不仅限于界面残基。

开源地址:https://github.com/baranwa2/Struct2Graph

论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-022-04910-9

原创文章,作者:ScienceAI,如若转载,请注明出处:https://www.iaiol.com/news/24532

(0)
上一篇 2022年11月4日 上午8:35
下一篇 2022年11月4日 下午2:19

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注