可对药物份子举行表征的若干深度进修

编辑 | 萝卜皮若干深度进修（GDL）基于包孕和处理对称信息的神经网络架构。GDL 为依赖于具有不同对称性和抽象级别的份子透露表现的份子建模利用程序带来了希望。苏黎世联邦理工学院的钻研人员对份子 GDL 举行了结构化和统一概述，重点介绍了其在药物发现、化学合成预计和量子化学中的利用。它包孕对 GDL 原理的介绍，以及相关的份子透露表现，例如份子图、网格、曲面和字符串，以及它们各自的属性。讨论了份子科学中 GDL 当前面临的挑战，并尝试预计未来的机会。该综述以「Geometric deep learning on molec

编辑 | 萝卜皮

若干深度进修（GDL）基于包孕和处理对称信息的神经网络架构。GDL 为依赖于具有不同对称性和抽象级别的份子透露表现的份子建模利用程序带来了希望。

苏黎世联邦理工学院的钻研人员对份子 GDL 举行了结构化和统一概述，重点介绍了其在药物发现、化学合成预计和量子化学中的利用。它包孕对 GDL 原理的介绍，以及相关的份子透露表现，例如份子图、网格、曲面和字符串，以及它们各自的属性。讨论了份子科学中 GDL 当前面临的挑战，并尝试预计未来的机会。

该综述以「Geometric deep learning on molecular representations」为题，于 2021 年 12 月 15 日发布在《Nature Machine Intelligence》。

可对药物份子举行表征的若干深度进修

深度进修的最新进展，即基于神经网络的人工智能（AI）的一个实例，已经在份子科学领域取得了开创性的利用，例如药物发现、量子化学和结构生物学。深度进修的两个特点使其在利用于份子时很有希望。

首先，深度进修步骤可以处理「非结构化」数据透露表现，例如文本序列、语音信号、图像和图形。这种能力似乎对份子体系特别有用，化学家已经开发了份子透露表现，可以在不同的抽象级别捕获份子特性。

其次，深度进修可以从输出数据中举行特性提取（或特性进修）；也就是说，从输出透露表现中生成数据驱动的特性。

深度进修的这两个特性补充了「经典」机器进修利用程序，例如定量结构-活性关系（QSAR），其中份子特性（即「份子描述符」）使用基于规则的算法举行先验编码。

多层神经网络从非结构化数据中进修并提取高阶份子特性的这种能力已经导致深度进修在份子科学中的大量利用。

可对药物份子举行表征的若干深度进修

图示：所选份子的示例性份子透露表现。（来源：论文）

若干深度进修（GDL）是人工智能的一个新兴概念。GDL 是一个总称，涵盖了将神经网络推广到欧几里德和非欧几里德域的新兴技术，例如图、流形、网格或字符串透露表现。一般来说，GDL 包括结合若干先验的步骤，即输出信号的结构空间和对称特性的信息，例如份子结构的透露表现。利用若干先验来提高模型的质量，例如其预计准确性。尽管 GDL 已越来越多地利用于份子建模，但其在该领域的全部潜力仍未开发。

本综述的主要目的是（1）对 GDL 在份子体系中的突出利用提供结构化和统一的概述，（2）描述该领域的主要钻研方向，以及（3）尝试对 GDL 的潜在未来影响举行批判性预计。突出了三个利用领域，即药物发现、量子化学和计算机辅助合成规划（CASP）。

GDL 的原则

GDL 一词是在 2017 年创造的。虽然 GDL 最初用于利用于非欧数据的步骤，但它现在扩展到所有包孕若干先验的深度进修步骤。对称性是 GDL 中的一个关键概念，因为它包孕体系在操作（转换）方面的属性，例如欧几里得群 E(3) 所涵盖的属性。份子的其他相关转换包括尺度分离（例如，网格的粗粒度和细粒度）或排列（即，份子中原子的不同排序）。

对称性通常根据不变性和等方差性举行重新定义，以表达任何数学函数相对于作用对称群的变幻 T（例如旋转、平移、反射或置换）的行为。这里，数学函数是利用于给定份子输出 X 的神经网络 F。F(X ) 可以在其中对 T 举行等变、不变或非等变变幻。

等方差和不变性的概念也可以用于参考从给定的份子透露表现 (X) 获得的份子特性，这取决于它们在对 X 利用变幻时的行为。神经网络提取的份子特性的对称性取决于输出份子透露表现和所用神经网络的对称性。

许多相关的份子特性（例如，平衡能、原子电荷或物理化学特性，如渗透性、亲油性或溶解性）对于某些对称操作是不变的。因此，对于化学利用，设计在预定义对称群作用下等变变幻的神经网络是可取的。

如果目标特性在份子对称变幻后发生变化（例如，在份子反转时改变的手性特性或在份子旋转时改变的矢量特性），则会出现例外情况。在这种情况下，等变神经网络的归纳偏差（进修偏差）将不允许对对称变幻的份子举行区分。

虽然神经网络可以被视为通用函数逼近器，但结合先验知识（如合理的若干信息）已经发展成为神经网络建模的核心设计原则。通过结合若干先验，GDL 可以提高模型的质量，并绕过与将数据强制转换为欧几里得若干（例如，通过特性工程）相关的几个瓶颈。此外，GDL 提供了新的建模机会，例如低数据机制中的数据增强。

可对药物份子举行表征的若干深度进修

图示：份子图的深度进修。（来源：论文）

份子 GDL

GDL 在份子体系中的利用具有挑战性，部分原因是有多种有效的方式来透露表现相同的份子实体。份子透露表现可以根据它们不同的抽象级别以及它们捕获的物理化学和若干方面举行分类。重要的是，所有这些透露表现都是同一现实的模型，因此适用于某些目的，而不适用于其他目的。GDL 提供了对同一份子的不同透露表现举行试验的机会，并利用其内在的若干特性来提高模型的质量。此外，由于其特性提取（特性进修）能力，GDL 一再证明在为手头的任务提供相关份子特性的见解方面很有用。

论文中，作者描述了最流行的份子 GDL 步骤及其在化学中的利用，根据用于深度进修的各自份子透露表现举行分组：份子图和点云、网格、表面和字符串符号。

可对药物份子举行表征的若干深度进修

图示：化学语言建模。（来源：论文）

总结

化学中的 GDL 使钻研人员能够利用非结构化份子透露表现的对称性，从而提高用于份子结构生成和性质预计的计算模型的灵活性和多功能性。

这些步骤补充了基于份子描述符或其他人工工程特性的化学信息学。对于通常以需要工程规则为特性的建模任务（例如，从头设计的份子构建和 CASP 的反应位点规范），GDL 扩展了现有的步骤库。在已发表的 GDL 利用程序中，每个份子透露表现都显示出特性性的优势和劣势。

SMILES 等份子串已被证明特别适合生成式深度进修任务，例如从头设计和 CASP。这一成功可能归功于这种化学语言的直接语法，它促进了下一个标记和序列到序列的预计。对于份子特性预计，SMILES 字符串可能由于其非单一性而受到限制。

份子图已被证明可用于属性预计，部分原因是它们的人类可解释性以及易于包孕所需的边缘和节点特性。3D信息的结合（例如，E（3）- 不变或 SE（3）/E（3）- 等变信息传递）有助于量子化学相关建模，而在药物发现利用中，这种步骤往往无法明显平衡模型增加的复杂性。E(3) 等变 GNN 也已利用于构象感知从头设计，但正在等待实验验证。

份子网格长期以来一直是大型静态份子体系（例如蛋白质）进修任务的标准 3D 透露表现。它们以用户定义的分辨率（体素密度）和输出网格的欧几里得结构捕获信息的能力使 3D CNN 高效并适用于蛋白质和其他大份子。然而，最近在 Transformer 网络、GNN 和测地线 CNN 方面取得的进展已经使模型达到了最先进的性能。

最后，份子表面是目前 GDL 的前沿。我们期待在不久的将来 GDL 在份子表面上有许多有趣的利用。

展望

为了进一步推动 GDL 在化学中的利用和影响，需要对算法复杂性、性能和模型可解释性之间的最佳权衡举行评价。这些方面对于调和「两个 QSAR」以及连接计算机科学和化学界至关重要。作者鼓励 GDL 从业者尽可能在他们的模型中包孕可解释性的方面（例如，通过可解释的 AI），并与领域专家举行透明的交流。领域专家的反馈对于开发新的「化学感知」架构和实现具体的前瞻性利用也至关重要。

GDL 在份子特性提取方面的潜力尚未得到充分探索。几项钻研表明，与经典份子描述符相比，进修表征具有优势，但在其他情况下，GDL 未能兑现其在卓越进修特性方面的承诺。为下游利用程序推导有用的数据驱动特性可能具有挑战性，因为它需要算法和各自利用领域的专业知识，有利于跨学科合作。虽然有评价机器进修模型用于属性预计和份子生成的基准，但目前还没有这样的框架来体系评价 AI 进修的数据驱动特性的有用性。这样的基准和体系钻研，包括前瞻性利用，对于获得对深度表征进修的直接评价是必不可少的。此外，钻研进修特性与输出份子的物理化学和生物学特性之间的关系将增强 GDL 的可解释性和适用性，以模拟结构 – 功能关系。

与常规执行适用性域（即模型预计被认为可靠的化学空间区域）评价的传统 QSAR 步骤相比，当代 GDL 钻研缺乏这样的评价。这种明显的差距可能构成在前瞻性钻研中更广泛使用 GDL 步骤的限制因素之一。

对模型的适用范围举行彻底评价将有助于降低预计不可靠的风险，例如，对于具有与训练数据不同的作用机制、官能团或物理化学特性的份子。建议开发用于适用性领域评价的「若干感知」步骤。

另一个机会是利用较少探索的 GDL 份子透露表现。例如，份子的电子结构在 CASP、份子性质预计和大份子相互作用（例如蛋白质-蛋白质相互作用）预计等任务中具有潜力。尽管准确的统计和量子力学模拟在计算上是昂贵的，但在大型量子数据集合上训练的现代量子机器进修模型，允许以高精度更快地访问量子化学特性。这方面可以使广泛的份子数据集的量子和电子特性化用作感兴趣任务的输出份子透露表现。

深度进修可以利用于多种生物和化学透露表现。相应的深度神经网络模型有可能增强人类的创造力，为以前不可行的科学钻研铺平道路。

然而，钻研只是探索了冰山一角。将深度进修融入份子科学的最重要催化剂可能是学术机构和其他组织促进跨学科教育、协作和交流。只有对化学和计算机科学有深刻的理解，以及开箱即用的思维和协作创造力，才有可能摘到「悬而未决的果实」。在这样的环境中，我们期望份子 GDL 能够增加学术界对份子体系和生物现象的理解。

论文链接：https://www.nature.com/articles/s42256-021-00418-8

{{userData.name}}已认证

可对药物份子举行表征的若干深度进修

全球首台百亿亿级超算用AMD的GPU：性能增7倍，能效提升3倍

站在2022前展望大模型的未来，周志华、唐杰、杨红霞这些大咖怎么看？

独家对话李岩：宿华、经纬、红点资金支持，第一个「生成式推荐」创业公司｜AI Pioneers

墙裂推荐！Karpathy大模型培训课LLM101n上线了，非常基础

baidu李彦宏：开源模型是智商税，闭源模型更强大、推理本钱更低

Midjourney 再更新！V6 模型支持外绘拓展与局部重绘了!

无需训练，主动扩大的视觉Transformer来了

Python 3.11正式版来了，比3.10快10-60%，官方：这或许是最好的版本

教授何恺明在MIT的第一堂课

邢波任校长的MBZUAI大学国内招生了，Michael Jordan、Raj Reddy等大佬授课