AI揭示微生物暗卵白:运用机械学习来发现微生物卵白质宇宙中的功效性「暗物质」

编辑 | 白菜叶宏基因组学项目揭示了地球生物圈中超过 80 亿个非冗余微生物卵白质序列。其中,11.7 亿种卵白质在超过 100,000 个可用参考基因组中没有可识别的同源物。了解这些微生物卵白质的功效是一项艰巨的任务。幸运的是,机械学习最近在复杂生物数据建模和预计方面取得了前所未有的准确性。这些进步的最前沿是鉴于机械学习的要领,可以自信地预计许多(但不是全部)氨基酸序列的原子级卵白质构造。最近的一项研讨运用 ESMFold 预计器,该预计器利用大型语言模型,从欧洲生物信息学研讨所的 MGnify 宏基因组数据库快

AI揭示微生物暗卵白:运用机械学习来发现微生物卵白质宇宙中的功效性「暗物质」

编辑 | 白菜叶

宏基因组学项目揭示了地球生物圈中超过 80 亿个非冗余微生物卵白质序列。其中,11.7 亿种卵白质在超过 100,000 个可用参考基因组中没有可识别的同源物。了解这些微生物卵白质的功效是一项艰巨的任务。幸运的是,机械学习最近在复杂生物数据建模和预计方面取得了前所未有的准确性。这些进步的最前沿是鉴于机械学习的要领,可以自信地预计许多(但不是全部)氨基酸序列的原子级卵白质构造。

最近的一项研讨运用 ESMFold 预计器,该预计器利用大型语言模型,从欧洲生物信息学研讨所的 MGnify 宏基因组数据库快速生成 6.17 亿个构造。在所有预计中,大约 36% 的预计被认为具有较高的置信度。计算出的构造通过进化尺度建模宏基因组图谱数据库向社区提供。

许多预计的卵白质来自不可培养或遗传上难以控制的微生物;因此,这种构造可以帮助微生物学家设计有关特定卵白质分子功效的假设。然而,所得数据集的大小限制了对这些构造从事整体分析的程度。为了克服这一挑战,最近的三项研讨运用序列聚类来缩小需要检查的数据范围,以找到新的卵白质和构造。

AI揭示微生物暗卵白:运用机械学习来发现微生物卵白质宇宙中的功效性「暗物质」

论文链接:https://www.science.org/doi/10.1126/science.ade2574

近期,有两项研讨分析了 AlphaFold 数据库中 2.15 亿个预先计算的构造。

其中一项工作开发了一种要领称为 Foldseek cluster,它运用超快序列和构造比对器的组合来对序列从事聚类,然后对代表性构造从事聚类。经过质量过滤后,这种要领将 AlphaFold 数据库卵白质空间减少到 230 万个构造。其中,略多于 700,000 个卵白质簇 (~30%) 与尝试确定的构造不匹配,并且无法运用 Pfam 或 TIGRFAM 正文从事功效正文。然而,在一些情况下,与正文簇的构造相似性,包括利用人类卵白质来了解细菌卵白质,使得能够对「黑暗」(即正文不良)簇中的几种细菌卵白从事功效预计。

AI揭示微生物暗卵白:运用机械学习来发现微生物卵白质宇宙中的功效性「暗物质」

论文链接:https://www.nature.com/articles/s41586-023-06510-w

另一项研讨运用 UniProt 数据库中的预计算集群来定义一组 600 万个代表性构造。然后运用这些序列构建交互式序列相似性网络,其中根据将给定簇分配给尝试表征的卵白质家属的能力,为节点提供估计的「亮度」分数。对网络「黑暗」区域的更深入分析导致了对细菌毒素-抗毒素系统中起作用的新毒素卵白家属的识别和随后的尝试验证。

AI揭示微生物暗卵白:运用机械学习来发现微生物卵白质宇宙中的功效性「暗物质」

论文链接:https://www.nature.com/articles/s41586-023-06622-3

还有一项研讨分析了集成微生物基因组和微生物组数据库中存储的宏基因组和元转录组编码的 80 亿条序列。

首先通过删除与 Pfam 相似的卵白质或参考基因组编码的序列来减少这个大数据集。运用鉴于图的要领对所得序列从事聚类。判定出近 100,000 个卵白质家属,称为新的宏基因组卵白质家属。AlphaFold 的运用以及鉴于构造的新型宏基因组卵白家属的聚类产生了约 4,000 个独特的预计构造。尽管在序列水平上并不明显,但构造相似性使 62% 的卵白质构造属于已知家属。

AI揭示微生物暗卵白:运用机械学习来发现微生物卵白质宇宙中的功效性「暗物质」

论文链接:https://www.nature.com/articles/s41586-023-06583-7

总之,这些研讨判定了新的卵白质家属,并证明了构造相似性在判定家属关联中的价值,特别是对于高度分歧的序列。尽管定义未表征卵白质的构造不一定揭示其功效,但在试图解码微生物基因组中包含的大量功效信息时,与表征卵白质的构造相似性可以提供宝贵的推论。

相关报道:https://www.nature.com/articles/s41579-023-01002-0

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研讨与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

收录于合集 #机械学习

 258个

上一篇可直接比较潜在新药的性能,杜克大学团队开发新的药物AI模型

给TA打赏
共{{data.count}}人
人已打赏
理论

AMD 的下一代 GPU 是 3D 集成的超等芯片:MI300 将 13 块硅片组合为一个芯片

2023-12-8 15:56:00

理论

GPU上运行速度比现有模型快3-7倍,IU团队应用全卷积神经网络从事准确的重新肽测序

2023-12-11 15:29:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索