深度进修猜测蛋白质-蛋白质相互作用

编辑 | 萝卜皮塔夫茨大学的 Lenore Cowen 教授和麻省理工学院的钻研职员合作设计了一种鉴于神经说话建模的最新进展的构造驱动的深度进修办法。该团队的深度进修模型称为 D-SCRIPT,能够从

编辑 | 萝卜皮

塔夫茨大学的 Lenore Cowen 教授和麻省理工学院的钻研职员合作设计了一种鉴于神经说话建模的最新进展的构造驱动的深度进修办法。该团队的深度进修模型称为 D-SCRIPT,能够从初级氨基酸序列猜测蛋白质 – 蛋白质相互作用 (PPI)。

钻研职员联合神经说话建模和构造驱动设计的进步来开发 D-SCRIPT,这是一种可解释且可推广的深度进修模型,它仅应用其序列来猜测两种蛋白质之间的相互作用,并在有限的训练数据和跨物种的情况下保持高精度。

测试结果表明,与最先进的办法相比,在 38,345 个人类 PPI 上训练的 D-SCRIPT 模型能够显着改善果蝇蛋白质的功效表征。在具有已知 3D 构造的蛋白质复合物上评估相同的 D-SCRIPT 模型,钻研职员发现 D-SCRIPT 输出的蛋白质间交战图与基本事实有显着重叠。

该团队应用 D-SCRIPT 在全基因组范围内筛选奶牛(Bos taurus)的 PPI,并专注于瘤胃生理学,识别与代谢和免疫反应相关的功效基因模块。然后可以利用猜测的相互作用进行大规模的功效猜测,解决基因组到现象组的挑战,特别是在数据很少的物种中。

该钻研以「D-SCRIPT translates genome to phenome with sequence-based, structure-aware, genome-scale predictions of protein-protein interactions」为题,于 2021 年 9 月 17 日刊载在《Cell Systems》。

图片

D-SCRIPT 是一种从序列猜测 PPI 的可解释办法。D-SCRIPT 追求鉴于构造的办法,将蛋白质对的猜测分数计算为它们各自构造的联合兼容性。由于构造在退化过程中比序列更保守,因此这种相互作用的物理模型可以很好地推广到整个物种。

图片

图示:D-SCRIPT 动机和工作流程。(泉源:论文)

模型中的中间交战图表示是可直接解释的,可用于验证猜测或钻研残基尺度上的蛋白质联合区域。因此,D-SCRIPT 加入了计算生物学中可解释的深度进修办法中规模虽小但不断增长的一系列进展。该团队的模块化设计还支持在不同阶段钻研模型输出,并且钻研职员证明每一层都捕获增量构造信息。

鉴于序列的办法(如 D-SCRIPT)的优势在于,由于低成本基因组测序的巨大进步,输入序列数据几乎总是可用的。与同样采用序列作为输入的最先进的深度进修办法 PIPR 相比,D-SCRIPT 在物种间的通用性更好;因此,对于非模式生物或苍蝇等生物中钻研较少的蛋白质的精确从头 PPI 猜测更为有效。

图片

图示:D-SCRIPT 架构。(泉源:论文)

钻研职员怀疑 D-SCRIPT 在物种间的相对成功,但在物种内评估中表现不佳是由于模型的简单性和正则化的程度。这些设计选择增强了 D-SCRIPT 的普遍性,引导它进修相互作用的一般构造方面,而不是应用网络构造或任何单个蛋白质的频率作为相互作用伙伴。然而,对于某些任务,可能需要在 D-SCRIPT 的跨物种泛化性和其他最先进办法的物种内特异性之间取得平衡。未来的钻研方向可能是迁移进修,将预训练的 D-SCRIPT 模型调整到目标物种,而另一种办法可能是将其与关联图论 PPI 猜测相联合。

图片

图示:牛瘤胃中的蛋白质相互作用网络。(泉源:论文)

值得注意的是,D-SCRIPT 不需要多序列比对 (MSA)。然而,在 D-SCRIPT 中应用的预训练说话模型是在整个蛋白质语料库的 MSA 上共同训练的,允许其输入特征化隐含地捕获退化保守的某些方面。以前,明确应用 MSA 的鉴于协同退化的办法已被证明在重建单蛋白质交战图和 3D 构造方面非常有效。将它们扩展到 PPI 猜测时,另一个挑战是确定两个 MSA 行之间的正确对应顺序。

在同线性保守可以提供大量信息的原核基因组中,ComplexContact、EV Complex 和 Gremlin 等办法已被证明表现良好,并提供残基级相互作用的细节。然而,将这些办法扩展到更复杂的真核基因组方面的成功率较低。

图片

图示:D-SCRIPT 嵌入表示构造和交互。(泉源:论文)

钻研职员发现需要计算 MSA 是一个性能瓶颈,使得用它们进行真核基因组规模猜测变得不可行,因此,限制了类似 EV 复合物的办法在该设置中的适用性。尽管如此,明确联合共同退化的见解可以提高 D-SCRIPT 的准确性,未来的工作可能会探索在不牺牲速度的情况下这样做的办法。来自猜测交战图和单个蛋白质构造的相关进展的见解也可以纳入我们的模型架构。

D-SCRIPT 说明进修单个蛋白质的说话是一项非常成功的深度进修努力,也有助于解码蛋白质相互作用的说话。利用 Bepler 和 Berger 的预训练说话模型,能够间接受益于单个蛋白质 3D 构造的丰富数据。相比之下,直接用蛋白质复合物的 3D 构造监督的 PPI 猜测办法,为了进修相互作用的物理机制,需要与相对较小的语料库抗衡。

图片

图示:D-SCRIPT 猜测具有生物学意义的交战图。(泉源:论文)

迫切需要可扩展的计算办法,以从非模式生物中的序列推断基因的功效。尽管测序革命有助于使基因组更广泛地可用,但仍然缺乏功效数据。应用 D-SCRIPT 进行 PPI 猜测速度快,使基因组规模筛选成为可能。例如,该团队能够在 8 天内在单个 GPU 上评估 B. taurus 的 5000 万个候选 PPI。

应用 D-SCRIPT,一个由基因组规模 PPI 猜测组成的工作流程,然后是 PPI 网络的图论分析以识别功效模块,可以生成大规模基因功效的高可信度猜测;该团队在奶牛瘤胃案例钻研中证明了这一点。

图片

这种从头 PPI 猜测甚至在模型生物中也很有用,例如线虫,对于这些模型生物,PPI 网络的已知部分仍然非常稀疏。在确实存在一些 PPI 数据的其他生物体中,未来的工作可以将这些数据与 D-SCRIPT 猜测有效地联合起来。钻研职员希望它的广泛适用性、跨物种准确性和速度的联合将使 D-SCRIPT 成为解决「基因组到现象」挑战的有用社区资源。

论文链接:https://doi.org/10.1016/j.cels.2021.08.010

相关报道:https://www.eurekalert.org/news-releases/936669

原创文章,作者:ScienceAI,如若转载,请注明出处:https://www.iaiol.com/news/26300

(0)
上一篇 2022年1月13日 下午2:52
下一篇 2022年1月14日 下午2:16

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注