AI for Science:人工智能改变化学领域,呆板进修范式加速化学物质发觉

随着人工智能技术兴起,在化学领域,传统的鉴于尝试和物理模型的方式逐渐与鉴于数据的呆板进修范式融合。越来越多的用于估计机处理数据表现被开发出来,并不断适应着以天生式为主的统计模型。

图片

虽然工程、金融和商业从新算法中获益匪浅,但获益不仅仅来自算法。几十年来,大规模估计一直是物理科学工具包中不可或缺的一部分 —— 人工智能的一些最新进展已经开始改变科学发觉的产生方式。物理科学领域的杰出成就令人兴奋不已,例如应用呆板进修渲染黑洞图像或 AlphaFold 对蛋白质折叠的贡献。本文将介绍人工智能在化学领域的一些更突出的用途,而化学是上述蛋白质折叠成绩的母学科。化学的主要目标之一是了解物质、它的性质以及它可以经历的变化。比如,当我们在寻找新的超导体、疫苗或任何其他具有我们想要特性的材料时,我们会求助于化学这一学科。传统上,我们认为化学是在配有试管、烧瓶和燃气燃烧器的尝试室中完成。但它也受益于估计和量子力学的发展,这两者都在 20 世纪中叶开始崭露头角。早期的应用包括应用估计机来帮助解决鉴于物理的公式估计;或者是通过将理论化学与估计机编程相结合,我们能够模拟(尽管远非完美)化学系统。最终,这项工作发展成为现在称为估计化学(computational chemistry)的子领域。该子领域在 1970 年代开始兴起发展,并在 1998 年和 2013 年有人凭借该领域获得诺贝尔奖。即便如此,尽管估计化学在过去几十年中获得了越来越多的认可,但其重要性远没有在尝试室所做的尝试重要,而尝试才是化学发觉的基石。然而,随着当前人工智能、以数据为中心的技术和不断增长的数据量的进步,我们大概正在目睹一种变化,估计方式不仅用于协助尝试室尝试,还用于指导尝试化学物质发觉过程那么人工智能是如何实现这种转变的呢?一个特别的发展是将呆板进修应用于材料发觉和份子计划,这是化学中的两个核心成绩。在传统方式中,份子的计划大致分为四个阶段,如下图所示。需要注意的是,每个阶段都大概需要数年时间和许多资源,并且不能保证成功。

图片

化学物质发觉阶段:发觉(discovery)、合成、分离与测试(synthesis, isolation and testing)、验证(validation)以及批准与市场营销(approval and marketing)。发觉阶段依赖于几个世纪以来发展起来的用来指导份子计划的理论框架。然而,在寻找「有用」的材料(例如凡士林、铁氟龙、青霉素)时,我们必须记住,其中许多来自自然界中常见的化合物。此外,这些化合物的效用往往是事后才发觉的。与此相反,有针对性的搜刮是一项需要更多时间和资源的工作(即使那样,人们也大概不得不应用已知的「有用」化合物作为起点)。为了给读者一些概念,据估计,药理活性化学空间(即份子的数量)为 1060!即使在测试和扩展阶段之前,在这样的空间中手动搜刮也会花费大量时间和资源。那么人工智能是如何进入这一切并加速化学(物质)发觉的呢?首先,呆板进修改进了现有的模拟化学环境的方式。我们已经提到估计化学同意我们部分绕过尝试室尝试。然而,模拟量子力学过程的估计化学的估计在估计成本和化学模拟的准确性方面都很差。估计化学的核心成绩是求解复杂份子的电子薛定谔方程 —— 也就是说,给定原子核集合的位置和电子总数,估计感兴趣的性质。只有单电子系统才有大概得到精确的解决方案,而对于其他系统,我们必须依赖「足够好」的近似值。此外,许多用于近似薛定谔方程的流行方式以指数方式扩展,使得蛮力解决方案难以解决。在上个世纪,人们开发了许多方式来加速估计而不牺牲太多的准确性。然而,即使是一些「更便宜」的方式也大概导致估计瓶颈。人工智能加速这些估计的一种方式是将它们与呆板进修相结合。另一种方式通过直接将份子表证映射到所需属性来完全绕过物理过程的建模。这两种方式都同意化学家更有效地检查化学数据库的各种属性,例如原子电荷、电离能等。天生式化学的兴起虽然更快的估计是一种改进,但它并没有解决我们仍然局限于已知化合物的事实 —— 这只是活性化学空间的一小部分。我们仍然必须手动指定想要分析的份子。我们如何扭转这种范式并计划一种算法来搜刮化学空间并为我们找到合适的候选物质呢?答案大概在于将天生模型应用于份子发觉成绩。但在我们开始之前,有必要谈谈如何以数字方式表现化学布局(以及哪些可以用于天生式建模)。在过去的几十年中已经开发了许多种表现,其中大部分属于以下四个类别之一,分别是字符串(string)、文本文件(text )、阵列(array)和图(graph)。

图片

异戊烷的表现。当然,化学布局可以表现为阵列。最初,份子的阵列表现用于辅助化学数据库的搜刮;然而 2000 年代初期引入了一种称为扩展连接指纹 (Extended connectivity fingerprint, ECFP) 的新型阵列表现。ECFP 被专门计划用于捕获与份子活动相关的特征, 它通常被认为在尝试预计份子特性方面的第一批表征之一。化学布局信息也可以转储到文本文件中 —— 这是量子化学估计的常见输出。这些文本文件可以包含非常丰富的信息,但是,它们作为呆板进修模型的输入通常不是很有用。另一方面,字符串表现在其语法中编码了很多信息。这使得它们特别适合天生建模,很像文本天生。最后,鉴于图的表现更加自然,它不仅同意我们在节点嵌入中编码特定于原子的属性,而且还可以捕获边缘嵌入中的化学键。此外,当与消息传递相结合时,图表征同意我们解释(和配置)来自其邻居的节点对节点的影响,这反映了化学布局中原子如何相互影响。这些属性使鉴于图的表现成为深度进修模型的首选输入表现类型。上面的表现类型可以有自己的子类型;遗憾的是,对于任何特定成绩,哪种表现最有效也没有定论。例如,数组表现通常是属性预计的首选,但图表现在过去几年中也成为了强有力的竞争者。同样需要注意的是,我们可以根据成绩将多种类型的表现结合应用。那么如何(以及哪些)表现可以用于探索化学空间?我们已经提到字符串表现适用于天生建模。图表现起初不太容易应用天生模型建模,但最近由于和变分自动编码器 (VAE) 的结合使它而成为强有力的竞争者;VAE 已被证明特别有用,因为它使我们能够拥有连续的、呆板可读性更高的表现。一项研究应用 VAE 表明字符串和图表现都可以编码和解码到隐空间中,在该空间中,份子不再是离散的,而是可以解码回离散份子表现的实值连续向量(该向量大概有效也大概无效); 不同向量之间的欧几里得距离将对应于化学相似性。在编码器和解码器之间添加了另一个模型,去预计隐空间中任何点的目标属性。

图片

连续隐空间中鉴于梯度的优化。训练后的模型 f (z) 相对于隐变量 z 进行了优化,从而可以找到一个新的 z,使新的隐向量表现具有更高的属性分数。但是,虽然天生份子本身是一项简单的任务 —— 人们可以采用任何天生模型并将其应用于他们想要的表现 —— 天生化学上有效并表现出我们想要的特性的布局是一个更具挑战性的成绩。实现这一目标的最初方式涉及在现有数据集上预训练模型,然后将其用于迁移进修。通过校准数据集对模型进行调整以同意天生偏向特定属性的布局,之后可以应用不同的算法(例如强化进修)进一步校准。这方面的几个例子涉及应用字符串或图表现;然而在化学有效性方面遇到了困难,或者不能成功获得想要的属性。此外,依赖预训练数据集会限制搜刮空间并引入大概不需要的偏差。摆脱预训练的一种尝试是应用马尔可夫决策过程 (MDP) 来确保化学布局的有效性,并通过深度 Q 进修(Q-learning)来优化 MDP 以获得所需的属性。该模型的一个特别优点是它同意用户可视化不同行为的好感度。下图显示了这个想法在实践中是如何实现的;模型认为有利的增量步骤是从起始布局开始的,以最大化特定属性。

图片

(a) 可视化某些行为的偏爱程度(1 是最偏爱,0 是最不偏爱),虚线表现去除键,实线表现第一步中键的添加。(b) 为使起始份子的药物相似性定量估计 (QED) 最大化而采取的步骤,其步骤以黄色显示。尽管还处于起步阶段,但应用人工智能探索化学空间已经显示出巨大的前景。它为我们提供了探索化学空间的新范式,以及一种新的检验理论和假设的方式。虽然经验主义不像尝试研究那样准确,但使在可预见的未来,鉴于估计的方式仍将是一个活跃的研究领域,并且已经成为任何研究团队的一部分。其它应用案例以及面临的挑战到目前为止,我们已经讨论了 AI 如何通过利用天生算法来搜刮化学空间,从而帮助更快地发觉新化学物质。虽然这是最值得注意的用例之一,但并不仅限于此。人工智能正被应用于化学中的许多其他成绩,其中包括:

尝试室中的自动化工作。我们可以应用呆板进修技术来加速合成工作流程。一种方式应用 “自动驾驶尝试室” 来自动化日常任务、优化资源支出并节省时间。一个相对较新的,但值得注意的案例是应用呆板人平台 Ada 来自动化薄膜材料的合成、处理和特征化(请参阅此处的平台)。另一项研究展示了应用移动呆板人化学家能够操作仪器,并在八天内对 688 次尝试进行测量;

化学反应预计。我们可以应用分类模型来预计将发生的反应类型,或者简化成绩并预计某个化学反应是否会发生。这个成绩有很多不同的建模方式;

化学数据挖掘。像许多其他学科一样,化学有大量可用于研究趋势和相关性的科学文献。一个值得注意的例子是对人类基因组计划提供的大量信息进行数据挖掘,以识别基因组数据的趋势。

最后,虽然新的鉴于数据驱动的趋势正在迅速发展并已经产生很大的影响,但它也给我们带来了许多新挑战,包括:

估计和尝试之间的差距。虽然估计方式的目标是帮助实现尝试的目标,但前者的结果并不总是可以迁移到后者。例如,在应用呆板进修寻找候选份子时,我们必须牢记份子在其合成途径中很少是独一无二的,而且通常很难知道未经探索的化学反应是否会在实践中起作用。即便可以起作用,目标化合物的收率、纯度和分离也存在成绩。估计工作和尝试工作之间的差距甚至会变得更大,因为估计方式所采用的指标并不总是可以转移到后者(上面提到的 QED 只是众多例子中的一个)上,而且尝试验证大概不可行;

需要更好的数据库和缺乏基准。由于整个化学空间是无限的,所以我们最希望有足够大的样本量来帮助我们进行之后的泛化。然而,目前大多数数据库都是为不同目的而计划的,它们通常应用不同的文件格式;其中一些缺乏提交的验证程序,或者它们在计划时没有考虑到人工智能的任务。此外,我们拥有的大多数数据库的化学数据范围有限 —— 它们只包含某些类型的份子。最后,大多数涉及应用人工智能进行化学预计的任务都缺乏一个基准平台,这使得许多不同研究的比较变得不可行。AlphaFold 成功的主要原因之一是它提供了上述所有内容作为蛋白质布局预计 (CASP) 竞赛的关键评估的一部分,这表明需要有组织的努力来简化和改进涉及化学预计的其他任务。

总结随着我们继续进入数字时代,新算法和更强大的硬件将继续揭开以前难以解决的成绩背后的面纱。人工智能与化学发觉的整合仍处于起步阶段 —— 但听到 “数据驱动的发觉” 这个词已经很平常了。许多公司 —— 无论是制药巨头还是年轻的初创公司 —— 已经采用了上述许多技术,并为化学带来了更高的自动化、效率和可重复性。人工智能使我们能够以前所未有的规模开展科学,在过去几年中,这产生了许多举措并吸引了资金,这些资金将继续引领我们进一步进入自主科学发觉的时代。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/aiforscience-ren-gong-zhi-neng-gai-bian-hua-xue-ling-yu-dai/

(0)
上一篇 2022年 3月 6日 下午1:07
下一篇 2022年 3月 6日 下午1:17

相关推荐

  • 优必选科技四上春晚,“垦荒牛”机器人展现硬科技革新力量

    2月11日,在央视2021牛年春晚的舞台上,优必选科技全新研发的首款大型四足机器人化身“垦荒牛”,与刘德华、王一博、关晓彤等一起呈现了科技感十足的创意表演《牛起来》。它们以拼搏进取的深圳 “垦荒牛”为设计原形,融合祥云及华夏红等传统文化元素,以绚丽的灯光及机械结构诠释科技美感,伴随激昂的音乐奔腾向前。从2016年春晚540台Alpha机器人登台齐舞到2018年春晚24台Jimu汪汪组队拜年,再到2019年春晚6台Walker机器人与演员同台表演歌舞《青春畅想》……优必选科技已经四次登上春晚舞台,展示华夏人工智能和机

    2021年 2月 12日
  • AI助力高功能钢设计:断裂强度、断裂寿命得到准确预计

    呆板进修技术促进了从医疗保健到高能物理等科技领域的进步。现在,呆板进修有望帮助火力发电厂加速开发更坚固的合金,尤其是不锈钢。更坚固的质料是高效生产能源的关键,从而带来经济和脱碳效益。「在发电厂中的使用超高强度钢的历史可追溯到20世纪50年代,随着时间的推移,质料逐渐改良。」太平洋西北国家实验室 (PNNL) 的博士后钻研助理 Osman Mamun 说。「如果我们能找到加快改良或创造新质料的格式,我们就能看到工场效率提高,同时减少排放到大气中的碳量。」Mamun 是最近两篇相关期刊文章的主要作者,这些文章揭示了呆板

    2021年 6月 28日
  • 智能汽车的事变数据,都会是抓不住的「幽魂」吗?

    特斯拉仍然深陷于舆论漩涡。纵使业界呼吁理性看待特斯拉「刹车门」事务,但这场风波很难在短时间内消弭,包括说服大众的究竟也很难一锤定音。为了寻找究竟,我们须要跨过两座大山。第一座大山是数据。目前,特斯拉向媒体公开的数据不全。多方隔靴搔痒,也只能在迷雾中分析造成事变的可能原因。下一步,只有等待更全的行车数据,以及车内EDR的纪录信息。第二座大山是检测机构。在行业内,暂时还不出台针对智能汽车检测的标准规范。同时,也很难找到有对应检测能力的第三方检测机构,他们既不审定智能电动汽车的设备,也缺乏相应的审定标准。在这件事情上

    2021年 5月 11日
  • 墨芯携手海潮|稠密化生态释放积极变革力量

    近日,墨芯人工智能与海潮信息签订元脑计谋合营协议。这是在海潮计谋投资墨芯之后,双方进一步计谋合营。 墨芯将携手海潮信息,以超过的稠密化估计技巧和产品,广阔的生态潜能,融合资源与算法,共创全栈AI解决方案,为各行各业AI利用供给强大算力引擎和生态支撑,为企业降本增效,并加速产业的人工智能化进程。AI估计的新锐势力—稠密化估计墨芯人工智能是稠密化估计的全球引领者,供给云端和终端AI加速方案,可广泛利用于互联网、运营商、生物医药等数据中心AI推理场景,并积极致力于稠密化生态建设。 在AI时代算力需求

    2022年 10月 9日
  • ICML 2021 | 鉴于拆卸的视频无监视零件宰割

    本文是第三十八届国际机器进修会议(ICML 2021)入选论文《鉴于拆卸的视频无监视零件宰割(Unsupervised Co-part Segmentation through Assembly)》的解读。
    该论文由北京大学陈宝权-刘利斌研究团队与山东大学、北京电影学院未来影像高精尖创新中心合作,提出了一种无监视的图像零件宰割法子,创新性地采用了将零件宰割历程和零件拆卸历程相结合的自监视进修思路,利用视频中的运动信息来提取潜在的零件特性,从而实行对物体零件的有意义的宰割。

    2022年 7月 18日
  • 抓取了1400家科技公司的雇用信息,我发现数据工程师比数据迷信家更有市场

    「作为数据迷信家,我还有机会吗?」不,你更应该成为数据工程师。

    2021年 1月 20日
  • 年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你

    来自以色列特拉维夫大学的研讨者在天生图象方面又有了新的升级,所用格式在保留源图象身份的同时,在细节编写上实现了更精细的效验。

    2021年 6月 25日
  • 从开发者日到AI开发者论坛,WAIC开发者年度盛会线下重启,共论后深度进修时代的AI走向

    立足上海,放眼全球。智联天下,无限可能。自 2018 年至 2021 年,天下人工智能大会(WAIC)已进入第四个年头。2021 年大会继续秉持「智联天下」的理念,以「众智成城」为中心,促进全球人工智能创新思想、技能、应用、人才和资本的集聚和交流,推动全球科技的创新协同,助力打造人工智能天下级产业集群。本届大会将于 7 月 7 日 – 10 日在上海举办。由天下人工智能大会组委会主办、机械之心承办的天下人工智能大会开发者日( WAIC· 开发者日),作为大会中心论坛及特色举止,是 WAIC 期间唯一面向 AI 开发

    2021年 6月 18日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注