利用深度进修，通过一个片断润饰进行份子优化

编辑 | 萝卜皮份子优化是药物开发中的关键步骤，可通过化学润饰改善候选药物的预期特征。来自俄亥俄州立大学（The Ohio State University）的研讨人员，在份子图上开发了一种新颖的深度生成模型 Modof，用于份子优化。Modof 通过展望份子处的单个断开位点以及在该位点去除和/或添加片断来润饰给定的份子。在 Modof-pipe 中实现了多个相同 Modof 模型的管道，以改动多个断开位置的输入份子。研讨人员表明 Modof-pipe 能够保留主要的份子支架，允许控制中间优化步骤并更好地约束份子相

编辑 | 萝卜皮

份子优化是药物开发中的关键步骤，可通过化学润饰改善候选药物的预期特征。

来自俄亥俄州立大学（The Ohio State University）的研讨人员，在份子图上开发了一种新颖的深度生成模型 Modof，用于份子优化。Modof 通过展望份子处的单个断开位点以及在该位点去除和/或添加片断来润饰给定的份子。

在 Modof-pipe 中实现了多个相同 Modof 模型的管道，以改动多个断开位置的输入份子。研讨人员表明 Modof-pipe 能够保留主要的份子支架，允许控制中间优化步骤并更好地约束份子相似性。Modof-pipe 在基准数据集上优于最先进的法子。

该研讨以「A deep generative model for molecule optimization via one fragment modification」为题，于 2021 年 12 月 9 日发布在《Nature Machine Intelligence 》。

利用深度进修，通过一个片断润饰进行份子优化

份子优化制约着药物发现

份子优化是药物发现的关键步骤，可通过化学润饰改善候选药物的所需特征。例如，在先导优化中，可以改变先导份子的化学结构以提高它们的选择性和特异性。

传统上，这种份子优化进程是根据药物化学家的知识和经验规划的，并通过基于片断的筛选或分解来进行。因此，它不可扩展或自动化。

最近的研讨表明，利用深度进修的计算机法子使替代的计算生成进程能够加速传统范式。这些深度进修法子从基于字符串的份子表示（SMILES）或份子图中进修，并相应地生成具备更好特征的新表示（例如，通过连接原子和键）。

尽管在计算上很有吸引力，但这些法子在一个非常重要的方面并不符合体外份子优化进程：份子优化必要保留份子的主要支架，但生成完整的新份子结构可能无法复制支架。因此，这些法子在告知和指导体外份子优化的潜力方面受到限制。

「带有一个片断的润饰符」

在这里，该团队提出了用于份子优化的新型生成模型，该模型更近似于硅化学润饰。该法子被称为「带有一个片断的润饰符」或 Modof。遵循基于片断的药物设计理念，Modof 展望份子上的单个断开位点，并通过改变该位点的片断（例如，环系统、接头和侧链）来润饰份子。

与现有的对整个份子图进行编码和解码的份子优化法子不同，Modof 从一个断开位置优化前后份子之间的差异中进修和编码。为了改动一个份子，Modof 只生成一个片断，该片断通过解码从潜在“差异”空间中抽取的样本来实例化预期的差异。然后，Modof 在断开连接的站点移除原始片断，并在该站点附加生成的片断。

通过多次采样，Modof 能够生成多个优化的候选者。一个由多个相同的 Modof 模型组成的管道，表示为 Modof-pipe，通过不同的 Modof 模型迭代地优化多个断开位置的份子，其中一个 Modof 模型的输出份子作为下一个 Modof 模型的输入。Modof-pipe 进一步增强为 Modof-pipem 以允许将一个份子润饰为多个优化的份子作为最终输出。

利用深度进修，通过一个片断润饰进行份子优化

图示：Modof 模型概述。（来源：论文）

Modof 具备以下优点：

它一次改动一个片断。它更好地接近体外化学润饰并保留了大部分份子支架。因此，它可能更好地告知和指导体外份子优化。它只对必要改动的片断进行编码和解码，有利于更好的改动性能。Modof-pipe 迭代地改动不同断开站点的多个片断。它可以更轻松地控制和直观地破译中间改动步骤，并有助于更好地解释整个改动进程。Modof 没有最先进的技术那么复杂。它的参数至少减少了 40%，利用的训练数据减少了 26%。Modof-pipe 在优化辛醇-水分配系数方面优于基准数据集上的最先进法子，该系数受到分解可及性 (SA) 和环尺寸的影响，在优化份子没有份子相似性约束的情况下提高了 81.2%，而优化了 51.2 %、25.6% 和 9.2% 的改进，如果优化后的份子必要至少与优化前的份子相似，分别为 0.2、0.4 和 0.6。Modof-pipem 将 Modof-pipe 的性能提高了至少 17.8%。Modof-pipem 和 Modof-pipe 在其他两项基准测试任务中也表现出卓越的性能，优化份子对多巴胺 D2 受体的结合亲和力并改善通过定量测量估计的药物相似性。

利用深度进修，通过一个片断润饰进行份子优化

图示：用于 plogP 优化的 Modof-pipe 示例。（来源：论文）

讨论

利用模仿特征进行份子优化

该研讨的实验中考虑的大多数份子特征都是基于模仿或展望值，而不是实验测量的。

也就是说，首先利用独立的模仿或机器进修模型来生成基准数据集的属性值。

例如，通过 Wildman 和 Crippen 法子估计 Crippen logP，利用预定义片断的评分函数计算分解可访问性，利用支持向量机分类器展望 DRD2 属性，并利用非线性分类器结合份子性质的多个期望函数对量子电动力学性质进行了展望。

尽管所有现有的份子优化生成模型都利用这种模仿属性，但挑战和机遇并存。当这些属性展望的模仿或机器进修模型由于各种原因而不够准确时，就会出现挑战，并且从不准确的属性值中进修的生成模型也将不准确或不正确，从而导致生成的份子可能对下游药物开发任务产生负面影响。

然而，随着不断改进这些模仿和展望，在充分释放大规模数据驱动进修范式的力量以刺激药物开发方面，由于属性模仿或展望带来的机会可能是巨大的。

具体来说，如果没有大规模的训练数据，大多数用于药物开发的基于深度进修的模型（其中许多已被证明非常有前途）是不可能的。

尽管通过实验测量大量份子感兴趣的性质是不切实际的，但份子的性质模仿或展望能够实现大量训练数据，并使这种深度进修法子的开发成为可能。幸运的是，由于实验测量的积累和创新计算法子的强大进修能力，属性展望模仿或模型变得更加准确。对大规模份子数据的准确性质模仿或展望，以及从这些份子数据生成模型的强大进修能力，将共同具备进一步推进硅药物开发的强大潜力。

可分解性和逆分解

该实验表明，Modof 还能够提高分解的可访问性。然而，这并不一定意味着生成的份子可以很容易地分解。Modof 的这种限制实际上是几乎所有用于份子生成的计算法子的共同点。最近的一项研讨表明，通过深度进修生成的许多份子不容易分解，这限制了生成模型在药物开发中产生真正影响的转化潜力。

另一方面，通过深度进修的逆分解展望，旨在通过从大量分解路径中进修和搜索来确定给定份子的可行分解路径，一直是一个活跃的研讨领域。优化份子不仅具备更好的特征，而且具备更好的可分解性，特别是同时确定明确的分解路径，可能是一个非常有趣和具备挑战性的未来研讨方向。

该团队希望开发一个全面的计算框架，可以生成具备更好特征的可分解份子。这不仅必要大量数据来训练复杂的模型，还必要必要的领域知识和人类专家循环到进修进程中。

体外考证

最终，必要在实验室中测试计算机生成的份子来考证计算法子。尽管大多数现有的计算法子都是在学术环境中开发的，因此无法在可购买或专有的份子库上轻松测试，并且其生成的份子也无法像前面讨论的那样轻松分解；一些成功的案例表明，强大的计算法子具备巨大的潜力，可以真正做出新的发现，从而在实验室考证中取得成功。

与这种利用深度进修法子的份子优化和发现进程类似的是 AlphaFold，这是一种展望蛋白质折叠结构的深度进修法子。AlphaFold 在解决一个 50 年前的生物学重大挑战方面取得的突破，有力地证明了现代进修法子的巨大力量，这一点不容小觑。

尽管如此，仍然非常必要与制药行业和体外测试合作，才能将计算法子的进步真正转化为真正的影响。此外，对生成的份子进行有效采样和/或优先排序，以确定用于小规模体外考证的可行的小份子集可能是一种实用的解决方案。这将必要在份子子空间上开发新的采样方案和/或在份子生成进程中进修份子优先级。同时，硅生成份子的大规模体外考证是一个具备挑战性但有趣的未来研讨方向。

计算份子优化中的其他问题

Modof-pipe 的一个局限性是它采用了一种局部贪婪优化策略：在每次迭代中，Modof 的输入份子将被优化到最佳状态，如果优化的份子没有更好的性质，它们将不会进行额外的 Modof 迭代。

利用深度进修，通过一个片断润饰进行份子优化

图示：DRD2、QED 和多属性优化的 Modof-pipe 示例。（来源：论文）

结论

Modof 通过进修优化前后份子之间的差异，一次优化一个断开位置的份子。利用一个不太复杂的模型，它可以实现比最先进的法子更好或相似的性能。除了上面已经讨论的局限性和相应的未来研讨方向之外，Modof 的另一个局限性是，在 Modof 中，润饰发生在份子的外围。

虽然这在体外先导优化中很常见，但该团队目前正在研讨如何增强 Modof 以改动份子的内部区域，如果必要，通过从这些区域的适当训练数据中进修。此外，研讨人员希望将特定领域的知识整合到 Modof 进修进程中，以提高进修和生成进程中的可解释性。

论文链接：https://www.nature.com/articles/s42256-021-00410-2

{{userData.name}}已认证

利用深度进修，通过一个片断润饰进行份子优化

baidu李士岩：两年内，每个人有望兑现「数字人自由」

姚班校友、斯坦福助理老师吴佳俊翻译，视觉较量争论经典《Vision》中文版面世

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

{{userData.name}}已认证

baidu李士岩：两年内，每个人有望兑现「数字人自由」

姚班校友、斯坦福助理老师吴佳俊翻译，视觉较量争论经典《Vision》中文版面世

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心 推动大模型产学研合作

字节跳动清华AIR成立联合研究中心推动大模型产学研合作