设想一下,医生写几句话来描绘一种专门用于治疗患者的药物,AI 就能自动天生所需药物的确切结构。这听起来像是科幻小说,但随着自然说话和份子生物学交叉领域的进展,未来很有可能成为现实。传统意义上讲,药物创造通常依靠人工设计和构建份子结构,然后将一种新药推向市场可能需要花费超过 10 亿美元并需要十年以上的时间(Gaudelet et al., 2021)。近来,人们对使用深度学习工具来改进计算机药物设计产生了相当大的兴趣,该领域通常被称为化学信息学(Rifaioglu et al., 2018)。然而,其中大多数实验仍然只关注份子及其低级特性,例如 logP,辛醇 / 水分配系数等。未来我们需要对份子设计举行更高级别的控制,并通过自然说话轻松实现控制。来自伊利诺伊大学厄巴纳-香槟分校和 Google X 的研讨者通过提出两项新任意来实现份子与自然说话转换的研讨目标:1)为份子天生描绘;2)在文本指导下从头天生份子。
论文地址:http://blender.cs.illinois.edu/paper/molt5.pdf
如下图所示,文本指导份子天生任意是创建一个与给定自然说话描绘相匹配的份子,这将有助于加速多个科学领域的研讨。
在多模态模型领域,自然说话处理和计算机视觉 (V+L) 的交叉点已被广泛研讨。通过自然说话实现对图像的语义级控制已取得一些进展,人们对多模态数据和模型越来越感兴趣。该研讨提出的份子 – 说话任意与 V+L 任意有一些相似之处,但也有几个特殊的难点:1)为份子创建注释需要大批的专业知识,2)因此,很难获得大批的份子 – 描绘对,3) 同一个份子可以具有许多功能,需要多种不同的描绘方式,这导致 4) 现有评价指标(例如 BLEU)无法充分评价这些任意。为了解决数据稀缺的问题,该研讨提出了一种新的自监督学习框架 MolT5(Molecular T5),其灵感来源于预训练多说话模型的最新进展(Devlin et al., 2019; Liu et al., 2020)。MolT5 首先使用简单的去噪目标在大批未标记的自然说话文本和份子字符串上预训练模型。之后,预训练模型在有限的黄金标准注释上举行微调。此外,为了充分评价份子描绘或天生模型,该研讨提出了一个名为 Text2Mol 的新指标(Edwards et al., 2021)。Text2Mol 重新调整了检索模型的用途,以分别评价实际份子 / 描绘和天生的描绘 / 份子之间的相似性。
多模态文本 – 份子表示模型 MolT5
研讨人员可以从互联网上抓取大批的自然说话文本。例如,Raffel et al. (2019) 构建了一个 Common Crawl-based 数据集,该数据集包含超过 700GB、比较干净的自然英语文本。另一方面,我们也可以从 ZINC-15 等公共数据库中获取超过 10 亿个份子的数据集。受近期大规模预训练进展的启发,该研讨提出了一种新的自监督学习框架 MolT5(Molecular T5),其可以利用大批未标记的自然说话文本和份子字符串。图 3 为 MolT5 架构图。该研讨首先使用 T5.1.1(T5 的改进版本)的公共检查点(public checkpoints)之一初始化编码器 – 解码器 Transformer 模型。之后,他们使用「replace corrupted spans」目标对模型举行预训练。具体而言,在每个预训练 step 中,该研讨都会采样一个包含自然说话序列和 SMILES 序列的 minibatch。对于每个序列来说,研讨者将随机选择序列中的一些单词举行修改。每个连续 span 中的 corrupted token 都被一个 sentinel token 替换(如图 3 中的 [X] 和 [Y] 所示)。接下来的任意是预测 dropped-out span。
份子(例如,用 SMILES 字符串表示)可以被认为是一种具有非常独特语法的说话。直观地说,该研讨的预训练阶段本质上是在来自两种不同说话的两个单语语料库上训练一个说话模型,并且两个语料库之间没有明确的对齐方式。这种方法类似于 mBERT 和 mBART 等多说话说话模型的预训练方式。由于 mBERT 等模型表现出出色的跨说话能力,该研讨还期望使用 MolT5 预训练的模型对文本 – 份子翻译任意有用。预训练之后,可以对预训练模型举行微调,以用于份子描绘(molecule captioning)或天生(如图 3 的下半部分所示)。在份子天生中,输出是一个描绘,输出是目标份子的 SMILES 表示。另一方面,在份子描绘中,输出是某个份子的 SMILES 字符串,输出是描绘输出份子的文字。
实验结果
下表 1 为份子描绘测试结果,研讨发现,大的预训练模型在天生逼真说话来描绘份子方面,T5 或 MolT5 比 Transformer 或 RNN 要好得多。
下图 5 显示了几个不同模型输出示例。
不同模型的天生结果示例(节选)。通常 RNN 模型在份子天生方面优于 Transformer 模型,而在份子描绘任意中,大型预训练模型比 RNN 和 Transformer 模型表现得更好。众所周知,扩展模型大小和预训练数据会导致性能显着提高,但该研讨的结果仍然令人惊讶。例如,一个默认的 T5 模型,它只在文本数据上举行了预训练,能够天生比 RNN 更接近真值的份子,而且通常是有效的。并且随着说话模型规模的扩展,这种趋势持续存在,因为具有 770M 参数的 T5-large 优于具有 60M 参数的专门预训练的 MolT5-small。尽管如此,MolT5 中的预训练还是略微改善了一些份子天生结果,尤其是在有效性方面的大幅提升。下图 4 显示了模型的结果,并且按输出描绘对其举行编号。实验发现,与 T5 相比,MolT5 能够更好地理解操作份子的指令。
不同模型天生的份子示例展示。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/24960