应用深度进修,通过一个片断润色进行份子优化

编辑 | 萝卜皮份子优化是药物开发中的关键步骤,可通过化学润色改善候选药物的预期特征。来自俄亥俄州立大学(The Ohio State University)的研讨人员,在份子图上开发了一种新颖的深度天生模型 Modof,用于份子优化。Modof 通过猜测份子处的单个断开位点以及在该位点去除和/或添加片断来润色给定的份子。在 Modof-pipe 中实现了多个相同 Modof 模型的管道,以窜改多个断开位置的输入份子。研讨人员表明 Modof-pipe 能够保留主要的份子支架,允许控制中间优化步骤并更好地约束份子相

编辑 | 萝卜皮

份子优化是药物开发中的关键步骤,可通过化学润色改善候选药物的预期特征。

来自俄亥俄州立大学(The Ohio State University)的研讨人员,在份子图上开发了一种新颖的深度天生模型 Modof,用于份子优化。Modof 通过猜测份子处的单个断开位点以及在该位点去除和/或添加片断来润色给定的份子。

在 Modof-pipe 中实现了多个相同 Modof 模型的管道,以窜改多个断开位置的输入份子。研讨人员表明 Modof-pipe 能够保留主要的份子支架,允许控制中间优化步骤并更好地约束份子相似性。Modof-pipe 在基准数据集上优于最先进的办法。

该研讨以「A deep generative model for molecule optimization via one fragment modification」为题,于 2021 年 12 月 9 日发布在《Nature Machine Intelligence 》。

图片

份子优化制约着药物发现

份子优化是药物发现的关键步骤,可通过化学润色改善候选药物的所需特征。例如,在先导优化中,可以改变先导份子的化学结构以提高它们的选择性和特异性。

传统上,这种份子优化历程是根据药物化学家的知识和经验规划的,并通过基于片断的筛选或分解来进行。因此,它不可扩展或自动化。

最近的研讨表明,应用深度进修的计算机办法使替代的计算天生历程能够加速传统范式。这些深度进修办法从基于字符串的份子表示(SMILES)或份子图中进修,并相应地天生拥有更好特征的新表示(例如,通过连接原子和键)。

尽管在计算上很有吸引力,但这些办法在一个非常重要的方面并不符合体外份子优化历程:份子优化必要保留份子的主要支架,但天生完整的新份子结构可能无法复制支架。因此,这些办法在告知和指导体外份子优化的潜力方面受到限制。

「带有一个片断的润色符」

在这里,该团队提出了用于份子优化的新型天生模型,该模型更近似于硅化学润色。该办法被称为「带有一个片断的润色符」或 Modof。遵循基于片断的药物设计理念,Modof 猜测份子上的单个断开位点,并通过改变该位点的片断(例如,环系统、接头和侧链)来润色份子。

与现有的对整个份子图进行编码和解码的份子优化办法不同,Modof 从一个断开位置优化前后份子之间的差异中进修和编码。为了窜改一个份子,Modof 只天生一个片断,该片断通过解码从潜在“差异”空间中抽取的样本来实例化预期的差异。然后,Modof 在断开连接的站点移除原始片断,并在该站点附加天生的片断。

通过多次采样,Modof 能够天生多个优化的候选者。一个由多个相同的 Modof 模型组成的管道,表示为 Modof-pipe,通过不同的 Modof 模型迭代地优化多个断开位置的份子,其中一个 Modof 模型的输出份子作为下一个 Modof 模型的输入。Modof-pipe 进一步增强为 Modof-pipem 以允许将一个份子润色为多个优化的份子作为最终输出。

图片

图示:Modof 模型概述。(来源:论文)

Modof 拥有以下优点:

它一次窜改一个片断。它更好地接近体外化学润色并保留了大部分份子支架。因此,它可能更好地告知和指导体外份子优化。它只对必要窜改的片断进行编码和解码,有利于更好的窜改性能。Modof-pipe 迭代地窜改不同断开站点的多个片断。它可以更轻松地控制和直观地破译中间窜改步骤,并有助于更好地解释整个窜改历程。Modof 没有最先进的技术那么复杂。它的参数至少减少了 40%,应用的训练数据减少了 26%。Modof-pipe 在优化辛醇-水分配系数方面优于基准数据集上的最先进办法,该系数受到分解可及性 (SA) 和环尺寸的影响,在优化份子没有份子相似性约束的情况下提高了 81.2%,而优化了 51.2 %、25.6% 和 9.2% 的改进,如果优化后的份子必要至少与优化前的份子相似,分别为 0.2、0.4 和 0.6。Modof-pipem 将 Modof-pipe 的性能提高了至少 17.8%。Modof-pipem 和 Modof-pipe 在其他两项基准测试任务中也表现出卓越的性能,优化份子对多巴胺 D2 受体的结合亲和力并改善通过定量测量估计的药物相似性。

图片

图示:用于 plogP 优化的 Modof-pipe 示例。(来源:论文)

讨论

应用摹拟特征进行份子优化

该研讨的实验中考虑的大多数份子特征都是基于摹拟或猜测值,而不是实验测量的。

也就是说,首先应用独立的摹拟或机器进修模型来天生基准数据集的属性值。

例如,通过 Wildman 和 Crippen 办法估计 Crippen logP,应用预定义片断的评分函数计算分解可访问性,应用支持向量机分类器猜测 DRD2 属性,并利用非线性分类器结合份子性质的多个期望函数对量子电动力学性质进行了猜测。

尽管所有现有的份子优化天生模型都应用这种摹拟属性,但挑战和机遇并存。当这些属性猜测的摹拟或机器进修模型由于各种原因而不够准确时,就会出现挑战,并且从不准确的属性值中进修的天生模型也将不准确或不正确,从而导致天生的份子可能对下游药物开发任务产生负面影响 。

然而,随着不断改进这些摹拟和猜测,在充分释放大规模数据驱动进修范式的力量以刺激药物开发方面,由于属性摹拟或猜测带来的机会可能是巨大的。

具体来说,如果没有大规模的训练数据,大多数用于药物开发的基于深度进修的模型(其中许多已被证明非常有前途)是不可能的。

尽管通过实验测量大量份子感兴趣的性质是不切实际的,但份子的性质摹拟或猜测能够实现大量训练数据,并使这种深度进修办法的开发成为可能。幸运的是,由于实验测量的积累和创新计算办法的强大进修能力,属性猜测摹拟或模型变得更加准确。对大规模份子数据的准确性质摹拟或猜测,以及从这些份子数据天生模型的强大进修能力,将共同拥有进一步推进硅药物开发的强大潜力。

可分解性和逆分解

该实验表明,Modof 还能够提高分解的可访问性。然而,这并不一定意味着天生的份子可以很容易地分解。Modof 的这种限制实际上是几乎所有用于份子天生的计算办法的共同点。最近的一项研讨表明,通过深度进修天生的许多份子不容易分解,这限制了天生模型在药物开发中产生真正影响的转化潜力。

另一方面,通过深度进修的逆分解猜测,旨在通过从大量分解路径中进修和搜索来确定给定份子的可行分解路径,一直是一个活跃的研讨领域。优化份子不仅拥有更好的特征,而且拥有更好的可分解性,特别是同时确定明确的分解路径,可能是一个非常有趣和拥有挑战性的未来研讨方向。

该团队希望开发一个全面的计算框架,可以天生拥有更好特征的可分解份子。这不仅必要大量数据来训练复杂的模型,还必要必要的领域知识和人类专家循环到进修历程中。

体外考证

最终,必要在实验室中测试计算机天生的份子来考证计算办法。尽管大多数现有的计算办法都是在学术环境中开发的,因此无法在可购买或专有的份子库上轻松测试,并且其天生的份子也无法像前面讨论的那样轻松分解;一些成功的案例表明,强大的计算办法拥有巨大的潜力,可以真正做出新的发现,从而在实验室考证中取得成功。

与这种应用深度进修办法的份子优化和发现历程类似的是 AlphaFold,这是一种猜测蛋白质折叠结构的深度进修办法。AlphaFold 在解决一个 50 年前的生物学重大挑战方面取得的突破,有力地证明了现代进修办法的巨大力量,这一点不容小觑。

尽管如此,仍然非常必要与制药行业和体外测试合作,才能将计算办法的进步真正转化为真正的影响。此外,对天生的份子进行有效采样和/或优先排序,以确定用于小规模体外考证的可行的小份子集可能是一种实用的解决方案。这将必要在份子子空间上开发新的采样方案和/或在份子天生历程中进修份子优先级。同时,硅天生份子的大规模体外考证是一个拥有挑战性但有趣的未来研讨方向。

计算份子优化中的其他问题

Modof-pipe 的一个局限性是它采用了一种局部贪婪优化策略:在每次迭代中,Modof 的输入份子将被优化到最佳状态,如果优化的份子没有更好的性质,它们将不会进行额外的 Modof 迭代。

图片

图示:DRD2、QED 和多属性优化的 Modof-pipe 示例。(来源:论文)

结论

Modof 通过进修优化前后份子之间的差异,一次优化一个断开位置的份子。应用一个不太复杂的模型,它可以实现比最先进的办法更好或相似的性能。除了上面已经讨论的局限性和相应的未来研讨方向之外,Modof 的另一个局限性是,在 Modof 中,润色发生在份子的外围。

虽然这在体外先导优化中很常见,但该团队目前正在研讨如何增强 Modof 以窜改份子的内部区域,如果必要,通过从这些区域的适当训练数据中进修。此外,研讨人员希望将特定领域的知识整合到 Modof 进修历程中,以提高进修和天生历程中的可解释性。

论文链接:https://www.nature.com/articles/s42256-021-00410-2

原创文章,作者:ScienceAI,如若转载,请注明出处:https://www.iaiol.com/news/ying-yong-shen-du-jin-xiu-tong-guo-yi-ge-pian-duan-run-se/

(0)
上一篇 2022年 1月 15日 上午8:32
下一篇 2022年 1月 18日 下午2:33

相关推荐

  • 七年力作:UC伯克利马毅新书预印版开放下载,探讨低维模型与高维数据分析

    这本书是一个承前继后的proposal,包罗数据迷信、呆板学习从哪里来以及该往哪里去。

    2020年 12月 8日
  • 用深度进修解决游览推销员成绩,研究者走到哪一步了?

    最近,针对游览推销员等拉拢优化成绩开发神经网络驱动的求解器引起了学术界的极大兴趣。这篇博文介绍了一个神经拉拢优化步骤,将几个最近提出的模型架构和进修范式统一到一个框架中。透过这一系列步骤,作者分析了深度进修在路由成绩方面的最新进展,并提供了新的方向来启发今后的研究,以创造实际的价值。

    2022年 4月 6日
  • AI可诠释性及其在蚂蚁保险平安规模的运用简介

    可诠释性有关算法作为蚂蚁集团提出的“可托AI”技术架构的重要组成部分,已大量运用于蚂蚁集团保险平安风控的风险鉴别、欺诈举报审理等场景,取得了一些阶段性的成果。本系列文章,我们将以风控规模详细运用为例,尤其关注规模大师履历和机械进修要领的交互结合,介绍蚂蚁集团特点可诠释、图可诠释、逻辑可诠释等算法方案的探索和落地。大师点评:沈超 西安交通大学教授、网络空间保险平安学院副院长AI可诠释性是可托AI的重要组成部分,已成为野生智能规模的研究热点。可诠释性有助于用户了解系统的决议逻辑并建立信任,从而

    2022年 4月 24日
  • 国产产业软件弯道超车迎曙光,首款云原生CAD取得重大突破

    《道德经》有云,道生一,一生二,二生三 ,三生万物。“三”往往引向无穷之数。三维家耕耘8年的科技实力即将迎来全面丰收,由此,“三体计划”横空出世。“三体计划”既包含三维家结盟三个世界顶尖技巧伙伴的合作成果、在三个前沿学科的不懈探索、以及在三大科技盛会上的实力展现,也代表三维家坚持对先进技巧的探索,用技巧为财产开拓无限想象空间。“三体计划”最终导向三大目标:降维打击、打破边界、重塑视界。10月10日首款云原生CAD的发布开

    2021年 10月 12日
  • 清华大学计图团队首创三角网格面片上的卷积神经搜集,首次取得100%正确率

    这项研究将极大地促进了三维视觉、虚拟现实、智慧城市和无人驾驶等领域的发展。

    2021年 6月 20日
  • 一场AI竞赛,怎么就让这群年轻人变化这么大?

    人工智能到底有什么用?这要从一场AI竞赛说起……

    2021年 6月 17日
  • 再不用怕Markdown中的绘图了,GitHub官方支持Mermaid图表绘制东西

    开发人员已能够在 GitHub 中使用 Mermaid 图表东西。

    2022年 2月 15日
  • 现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

    为了推动 AI 技巧的应用创新,促进人工智能范围的学术交流、人才培养,打造人工智能的人才交流平台与产业生态圈,中国人工智能学会联合杭州市余杭区人民政府联合发起了首届全球人工智能技巧创新大赛,并得到了阿里云、OPPO 等头部科技企业的积极参与和支持。阿里云天池平台为本次大赛提供平台和算力支撑。

    AI 青年说是大赛主办方为提升青年开发者对 AI 的认识而主办的系列活动,该活动邀请知名青年学者,探讨理论研究与应用实践中的热点话题。本文对 AI 青年说系列活动第三期「未来五年的计算机视觉」核心内容进行了总结回顾。

    2021年 4月 30日
  • 揭秘Hologres如何支持超高QPS在线办事(点查)场景

    Hologres(中文名交互式分解)是阿里云自研的一站式及时数仓,这个云原生系统融合了及时办事和分解大数据的场景,全面兼容PostgreSQL协定并与大数据生态无缝打通,能用同一套数据架构同时支持及时写入及时盘问以及及时离线联邦分解。它的出现简化了业务的架构,为业务提供及时决策的能力,让大数据发挥出更大的商业价值。本期将为大家揭秘Hologres如何支持超高QPS点查。传统的 OLAP 系统在业务中往往扮演着比较静态的角色,以通过分解海量的数据得到业务的洞察(比如说预计算好的视图、模型等),从这些海量数据分解到的结

    2021年 7月 29日
  • AI助力高功能钢设计:断裂强度、断裂寿命得到准确预计

    呆板进修技术促进了从医疗保健到高能物理等科技领域的进步。现在,呆板进修有望帮助火力发电厂加速开发更坚固的合金,尤其是不锈钢。更坚固的质料是高效生产能源的关键,从而带来经济和脱碳效益。「在发电厂中的使用超高强度钢的历史可追溯到20世纪50年代,随着时间的推移,质料逐渐改良。」太平洋西北国家实验室 (PNNL) 的博士后钻研助理 Osman Mamun 说。「如果我们能找到加快改良或创造新质料的格式,我们就能看到工场效率提高,同时减少排放到大气中的碳量。」Mamun 是最近两篇相关期刊文章的主要作者,这些文章揭示了呆板

    2021年 6月 28日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注