可对药物份子举行表征的若干深度进修

编辑 | 萝卜皮若干深度进修(GDL)基于包罗和处理对称信息的神经网络架构。GDL 为依赖于具有不同对称性和抽象级别的份子体现的份子建模利用程序带来了希望。苏黎世联邦理工学院的研讨人员对份子 GDL 举行了结构化和统一概述,重点介绍了其在药物发现、化学合成猜测和量子化学中的利用。它包罗对 GDL 原理的介绍,以及相关的份子体现,例如份子图、网格、曲面和字符串,以及它们各自的属性。讨论了份子科学中 GDL 当前面临的挑战,并尝试猜测未来的机会。该综述以「Geometric deep learning on molec

编辑 | 萝卜皮

若干深度进修(GDL)基于包罗和处理对称信息的神经网络架构。GDL 为依赖于具有不同对称性和抽象级别的份子体现的份子建模利用程序带来了希望。

苏黎世联邦理工学院的研讨人员对份子 GDL 举行了结构化和统一概述,重点介绍了其在药物发现、化学合成猜测和量子化学中的利用。它包罗对 GDL 原理的介绍,以及相关的份子体现,例如份子图、网格、曲面和字符串,以及它们各自的属性。讨论了份子科学中 GDL 当前面临的挑战,并尝试猜测未来的机会。

该综述以「Geometric deep learning on molecular representations」为题,于 2021 年 12 月 15 日发布在《Nature Machine Intelligence》。

可对药物份子举行表征的若干深度进修

深度进修的最新进展,即基于神经网络的人工智能(AI)的一个实例,已经在份子科学领域取得了开创性的利用,例如药物发现、量子化学和结构生物学。深度进修的两个特点使其在利用于份子时很有希望。

首先,深度进修法子可以处理「非结构化」数据体现,例如文本序列、语音信号、图像和图形。这种能力似乎对份子体系特别有用,化学家已经开发了份子体现,可以在不同的抽象级别捕获份子个性。

其次,深度进修可以从输出数据中举行特色提取(或特色进修);也就是说,从输出体现中生成数据驱动的特色。

深度进修的这两个特色补充了「经典」机器进修利用程序,例如定量结构-活性关系(QSAR),其中份子特色(即「份子描述符」)使用基于规则的算法举行先验编码。

多层神经网络从非结构化数据中进修并提取高阶份子特色的这种能力已经导致深度进修在份子科学中的大量利用。

可对药物份子举行表征的若干深度进修

图示:所选份子的示例性份子体现。(来源:论文)

若干深度进修(GDL)是人工智能的一个新兴概念。GDL 是一个总称,涵盖了将神经网络推广到欧几里德和非欧几里德域的新兴技术,例如图、流形、网格或字符串体现。一般来说,GDL 包括结合若干先验的法子,即输出信号的结构空间和对称个性的信息,例如份子结构的体现。利用若干先验来提高模型的质量,例如其猜测准确性。尽管 GDL 已越来越多地利用于份子建模,但其在该领域的全部潜力仍未开发。

本综述的主要目的是(1)对 GDL 在份子体系中的突出利用提供结构化和统一的概述,(2)描述该领域的主要研讨方向,以及(3)尝试对 GDL 的潜在未来影响举行批判性猜测。突出了三个利用领域,即药物发现、量子化学和计算机辅助合成规划(CASP)。

GDL 的原则

GDL 一词是在 2017 年创造的。虽然 GDL 最初用于利用于非欧数据的法子,但它现在扩展到所有包罗若干先验的深度进修法子。对称性是 GDL 中的一个关键概念,因为它包罗体系在操作(转换)方面的属性,例如欧几里得群 E(3) 所涵盖的属性。份子的其他相关转换包括尺度分离(例如,网格的粗粒度和细粒度)或排列(即,份子中原子的不同排序)。

对称性通常根据不变性和等方差性举行重新定义,以表达任何数学函数相对于作用对称群的变更 T(例如旋转、平移、反射或置换)的行为。这里,数学函数是利用于给定份子输出 X 的神经网络 F。F(X ) 可以在其中对 T 举行等变、不变或非等变变更。

等方差和不变性的概念也可以用于参考从给定的份子体现 (X) 获得的份子特色,这取决于它们在对 X 利用变更时的行为。神经网络提取的份子特色的对称性取决于输出份子体现和所用神经网络的对称性。

许多相关的份子个性(例如,平衡能、原子电荷或物理化学个性,如渗透性、亲油性或溶解性)对于某些对称操作是不变的。因此,对于化学利用,设计在预定义对称群作用下等变变更的神经网络是可取的。

如果目标个性在份子对称变更后发生变化(例如,在份子反转时改变的手性个性或在份子旋转时改变的矢量个性),则会出现例外情况。在这种情况下,等变神经网络的归纳偏差(进修偏差)将不允许对对称变更的份子举行区分。

虽然神经网络可以被视为通用函数逼近器,但结合先验知识(如合理的若干信息)已经发展成为神经网络建模的核心设计原则。通过结合若干先验,GDL 可以提高模型的质量,并绕过与将数据强制转换为欧几里得若干(例如,通过特色工程)相关的几个瓶颈。此外,GDL 提供了新的建模机会,例如低数据机制中的数据增强。

可对药物份子举行表征的若干深度进修

图示:份子图的深度进修。(来源:论文)

份子 GDL

GDL 在份子体系中的利用具有挑战性,部分原因是有多种有效的方式来体现相同的份子实体。份子体现可以根据它们不同的抽象级别以及它们捕获的物理化学和若干方面举行分类。重要的是,所有这些体现都是同一现实的模型,因此适用于某些目的,而不适用于其他目的。GDL 提供了对同一份子的不同体现举行试验的机会,并利用其内在的若干特色来提高模型的质量。此外,由于其特色提取(特色进修)能力,GDL 一再证明在为手头的任务提供相关份子个性的见解方面很有用。

论文中,作者描述了最流行的份子 GDL 法子及其在化学中的利用,根据用于深度进修的各自份子体现举行分组:份子图和点云、网格、表面和字符串符号。

可对药物份子举行表征的若干深度进修

图示:化学语言建模。(来源:论文)

总结

化学中的 GDL 使研讨人员能够利用非结构化份子体现的对称性,从而提高用于份子结构生成和性质猜测的计算模型的灵活性和多功能性。

这些法子补充了基于份子描述符或其他人工工程特色的化学信息学。对于通常以需要工程规则为特色的建模任务(例如,从头设计的份子构建和 CASP 的反应位点规范),GDL 扩展了现有的法子库。在已发表的 GDL 利用程序中,每个份子体现都显示出特色性的优势和劣势。

SMILES 等份子串已被证明特别适合生成式深度进修任务,例如从头设计和 CASP。这一成功可能归功于这种化学语言的直接语法,它促进了下一个标记和序列到序列的猜测。对于份子个性猜测,SMILES 字符串可能由于其非单一性而受到限制。

份子图已被证明可用于属性猜测,部分原因是它们的人类可解释性以及易于包罗所需的边缘和节点特色。3D信息的结合(例如,E(3)- 不变或 SE(3)/E(3)- 等变信息传递)有助于量子化学相关建模,而在药物发现利用中,这种法子往往无法明显平衡模型增加的复杂性。E(3) 等变 GNN 也已利用于构象感知从头设计,但正在等待实验验证。

份子网格长期以来一直是大型静态份子体系(例如蛋白质)进修任务的标准 3D 体现。它们以用户定义的分辨率(体素密度)和输出网格的欧几里得结构捕获信息的能力使 3D CNN 高效并适用于蛋白质和其他大份子。然而,最近在 Transformer 网络、GNN 和测地线 CNN 方面取得的进展已经使模型达到了最先进的性能。

最后,份子表面是目前 GDL 的前沿。我们期待在不久的将来 GDL 在份子表面上有许多有趣的利用。

展望

为了进一步推动 GDL 在化学中的利用和影响,需要对算法复杂性、性能和模型可解释性之间的最佳权衡举行评价。这些方面对于调和「两个 QSAR」以及连接计算机科学和化学界至关重要。作者鼓励 GDL 从业者尽可能在他们的模型中包罗可解释性的方面(例如,通过可解释的 AI),并与领域专家举行透明的交流。领域专家的反馈对于开发新的「化学感知」架构和实现具体的前瞻性利用也至关重要。

GDL 在份子特色提取方面的潜力尚未得到充分探索。几项研讨表明,与经典份子描述符相比,进修表征具有优势,但在其他情况下,GDL 未能兑现其在卓越进修特色方面的承诺。为下游利用程序推导有用的数据驱动特色可能具有挑战性,因为它需要算法和各自利用领域的专业知识,有利于跨学科合作。虽然有评价机器进修模型用于属性猜测和份子生成的基准,但目前还没有这样的框架来体系评价 AI 进修的数据驱动特色的有用性。这样的基准和体系研讨,包括前瞻性利用,对于获得对深度表征进修的直接评价是必不可少的。此外,研讨进修特色与输出份子的物理化学和生物学个性之间的关系将增强 GDL 的可解释性和适用性,以模拟结构 – 功能关系。

与常规执行适用性域(即模型猜测被认为可靠的化学空间区域)评价的传统 QSAR 法子相比,当代 GDL 研讨缺乏这样的评价。这种明显的差距可能构成在前瞻性研讨中更广泛使用 GDL 法子的限制因素之一。

对模型的适用范围举行彻底评价将有助于降低猜测不可靠的风险,例如,对于具有与训练数据不同的作用机制、官能团或物理化学个性的份子。建议开发用于适用性领域评价的「若干感知」法子。

另一个机会是利用较少探索的 GDL 份子体现。例如,份子的电子结构在 CASP、份子性质猜测和大份子相互作用(例如蛋白质-蛋白质相互作用)猜测等任务中具有潜力。尽管准确的统计和量子力学模拟在计算上是昂贵的,但在大型量子数据集合上训练的现代量子机器进修模型,允许以高精度更快地访问量子化学个性。这方面可以使广泛的份子数据集的量子和电子特色化用作感兴趣任务的输出份子体现。

深度进修可以利用于多种生物和化学体现。相应的深度神经网络模型有可能增强人类的创造力,为以前不可行的科学研讨铺平道路。

然而,研讨只是探索了冰山一角。将深度进修融入份子科学的最重要催化剂可能是学术机构和其他组织促进跨学科教育、协作和交流。只有对化学和计算机科学有深刻的理解,以及开箱即用的思维和协作创造力,才有可能摘到「悬而未决的果实」。在这样的环境中,我们期望份子 GDL 能够增加学术界对份子体系和生物现象的理解。

论文链接:https://www.nature.com/articles/s42256-021-00418-8

AI

全球首台百亿亿级超算用AMD的GPU:性能增7倍,能效提升3倍

2021-12-26 20:39:00

AI

站在2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?

2021-12-29 14:40:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索