AI在线 AI在线

解开化学语言模型中的「黑匣子」,Transformer可快速学习分子的部分结构,但手性学习困难

编辑 | X近年来,自然语言处理(NLP)模型,特别是 Transformer 模型,已应用于像 SMILES 这样的分子结构的文字表示。然而,关于这些模型如何理解化学结构的研究很少。为了解决这个黑匣子,东京大学的研究人员使用代表性的 NLP 模型 Transformer 研究了 SMILES 的学习进度与化学结构之间的关系。研究表明,虽然 Transformer 可以快速学习分子的部分结构,但它需要扩展训练才能理解整体结构。一致的是,从训练开始到结束,使用不同学习步骤的模型生成的描述符进行分子特性预测的准确性是相

图片

编辑 | X

近年来,自然语言处理(NLP)模型,特别是 Transformer 模型,已应用于像 SMILES 这样的分子结构的文字表示。然而,关于这些模型如何理解化学结构的研究很少。

为了解决这个黑匣子,东京大学的研究人员使用代表性的 NLP 模型 Transformer 研究了 SMILES 的学习进度与化学结构之间的关系。研究表明,虽然 Transformer 可以快速学习分子的部分结构,但它需要扩展训练才能理解整体结构。

一致的是,从训练开始到结束,使用不同学习步骤的模型生成的描述符进行分子特性预测的准确性是相似的。此外,发现 Transformer 需要特别长时间的训练来学习手性,并且有时会因对映体的误解而停滞不前,性能低下。这些发现有望加深对化学领域 NLP 模型的理解。

该研究以「Difficulty in chirality recognition for Transformer architectures learning chemical structures from string representations」为题,于 2024 年 2 月 16 日发布在《Nature Communications》上。

图片

论文链接:https://www.nature.com/articles/s41467-024-45102-8

机器学习的最新进展影响了化学领域的各种研究,例如分子性质预测、能量计算和结构生成。

要在化学中利用机器学习方法,我们首先需要让计算机识别化学结构。最流行的方法之一是使用化学语言模型,这是一种自然语言处理 (NLP) 模型,其中包含表示化学结构的字符串,例如 SMILES。

很少有人研究化学语言模型如何理解极其多样化的分子结构,以及如何将化学结构和描述符联系起来。

在此,东京大学的研究人员通过比较模型及其描述符在训练的各个步骤中的性能来解决这个黑匣子,这阐明了哪些类型的分子特征可以轻松地纳入描述符中,哪些类型则不能。特别是,专注于最流行的 NLP 模型 Transformer,这是当今用于描述符生成和其他化学语言任务的良好利用的架构。

具体来说,研究人员训练一个 Transformer 模型来翻译 SMILES 字符串,然后比较不同训练步骤中预测与目标之间分子指纹的完美一致性和相似性。还利用模型在训练的不同步骤生成的描述符进行了 6 个分子性质预测任务,并研究了哪些类型的任务容易解决。

研究进一步发现,Transformer 的翻译准确率有时会在较低水平上停滞一段时间,然后突然飙升。为了弄清楚其原因,研究人员比较了 SMILES 每个字符的翻译准确性。最后,寻找并找到了防止停滞和稳定学习的方法。

主要研究结果如下:

1、为了了解 Transformer 模型如何学习不同的化学结构,研究人员首先通过比较不同训练步骤的模型来研究学习过程与模型性能之间的关系。在 Transformer 模型中,在训练的早期阶段就可以识别分子的部分结构,而识别整体结构则需要更多的训练。结合之前关于 RNN 模型的研究,这一发现可以推广到使用 SMILES 字符串的各种 NLP 模型。因此,使 Transformer 模型能够将整体结构信息作为其结构中的辅助任务来引用,将有助于改进描述符生成模型。

图片

图 1:学习过程中 Transformer 的部分/整体结构识别。(来源:论文)

2、对于分子性质预测,Transformer 模型生成的描述符的性能在训练之前可能已经饱和,并且在后续的训练中没有得到改善。这表明初始模型的描述符已经包含了足够的下游任务信息,这可能是分子的部分结构。另一方面,也有可能下游任务,如分子的性质预测,对于 Transformer 来说太容易了,不适合评估基于 Transformer 的描述符生成方法。

图片

图 2:描述符在分子性质预测中的性能。(来源:论文)

3、与其他因素(例如整体结构或其他部分结构)相比,Transformer 在手性方面的翻译性能提升相对较慢,并且模型有时会长时间对手性产生混淆,导致整体结构识别持续停滞。这表明,向模型「教授」手性的额外结构或任务可以改善模型及其描述符的性能。

图片

图 3:不同初始权重下完美精度的停滞。(来源:论文)

图片

图 4:Transformer 的手性学习困难。(来源:论文)

4、引入pre-LN 结构可以加速并稳定学习,包括手性。

图片

图 5:通过引入 pre-LN 改善停滞和手性识别。(来源:论文)

最后,为了阐明关于 Transformer 的研究结果的普遍性,研究人员使用另一种分子表达来训练模型。使用 InChI 代替 SMILES,这是一些化学语言模型化学信息学研究中采用的分子的替代文字表示。

图片

图 6:通过 InChI-to-SMILES 翻译训练的 Transformer 模型的实验。(来源:论文)

结果显示,与完全精度和损失函数相比,部分精度和指纹相似度早期饱和,表明在 InChI 到 SMILES 翻译中,部分结构的识别比整体结构更容易。下游任务的性能并没有通过训练得到改善。

结果还表明,InChI 到 SMILES 的翻译确实出现了停滞,区分对映体的混乱导致了停滞。此外,pre-LN 的引入缓解了停滞现象。

这些发现有助于澄清化学语言模型中的黑箱,并有望激活这一领域。研究这些发现是否适用于具有监督性质的其他应用(例如结构生成和端到端属性预测)的化学语言模型是一项有趣的未来任务。

由于 NLP 是深度学习中最先进的领域之一,化学语言模型将得到越来越多的发展。另一方面,与化学领域流行的神经网络模型(如图神经网络)相比,语言模型与化学结构之间的关系存在许多未知因素。

对 NLP 模型与化学结构之间关系的进一步基础研究,有望进一步澄清 NLP 模型如何进化和识别化学结构的黑盒子,从而促进化学中各种任务的化学语言模型的发展和性能的提高。

相关资讯

直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

不知 Gemini 1.5 Pro 是否用到了这项技术。谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。Infini-Transformer 引入了一种有效的方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求。使用该技术,研究者成功将一个 1B 的模型上下文长度提高到 100 万;应用到 8B 模型上,模型能处理 500K 的书籍摘要任务。自 2017 年开创性研究论文《Attention is All Yo
4/12/2024 7:43:00 PM
机器之心

机器人策略学习的Game Changer?伯克利提出Body Transformer

过去几年间,Transformer 架构已经取得了巨大的成功,同时其也衍生出了大量变体,比如擅长处理视觉任务的 Vision Transformer(ViT)。本文要介绍的 Body Transformer(BoT) 则是非常适合机器人策略学习的 Transformer 变体。我们知道,物理智能体在执行动作的校正和稳定时,往往会根据其感受到的外部刺激的位置给出空间上的响应。比如人类对这些刺激的响应回路位于脊髓神经回路层面,它们专门负责单个执行器的响应。起校正作用的局部执行是高效运动的主要因素,这对机器人来说也尤为重
8/19/2024 2:19:00 PM
机器之心

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

最近的大型语言模型(LLMs)进步已经使我们处于革命性的时代,尤其是 LLMs 驱动的智能 Agents 在广泛任务中展现出了通用性和有效性。这些被称为「AI 科学家」的 Agent 已经开始探寻其在生物学和化学等各种领域内进行自主科学发现的潜力。此类 Agents 已经表现出了选择适合任务的工具,规划环境条件,以及实现实验自动化的能力。因此,Agent 可摇身一变成为真实的科学家,能够有效地设计和开展实验。在某些领域如化学设计中,Agent 所展现的能力已经超过了大部分非专业人士。然而,当我们享受着这种自动化 A
2/20/2024 11:54:00 AM
ScienceAI

「两全其美」,从头设计分子,深度学习架构S4用于化学语言建模

编辑 | KX生成式深度学习正在重塑药物设计。化学语言模型 (CLM) 以分子串的形式生成分子,对这一过程尤为重要。近日,来自荷兰埃因霍芬理工大学(Eindhoven University of Technology)的研究人员将一种最新的深度学习架构(S4)引入到从头药物设计中。结构化状态空间序列(Structured State Space Sequence,S4)模型在学习序列的全局属性方面表现卓越,那么 S4 能否推进从头设计的化学语言建模?为了给出答案,研究人员系统地在一系列药物发现任务上对 S4 与最先
8/2/2024 3:20:00 PM
ScienceAI

成功率提升15%,浙大、碳硅智慧用LLM进行多属性分子优化,登Nature子刊

编辑 | 萝卜皮优化候选分子的物理化学和功能特性一直是药物和材料设计中的一项关键任务。 虽然人工智能很适合处理平衡多个(可能相互冲突的)优化目标的任务,但是例如多属性标记训练数据的稀疏性等技术挑战,长期以来阻碍了解决方案的开发。 在最新的研究中,浙江大学侯廷军团队、中南大学曹东升团队以及碳硅智慧团队联合开发了一种分子优化工具 Prompt-MolOpt。
10/23/2024 2:06:00 PM
ScienceAI

AI搞科研?西湖大学发布「AI科学家」Nova,效果比SOTA竞品提升2.5倍

编辑 | ScienceAI伟大科学家的研究,往往开始于一个小的灵感、小的创意。 长久以来,科学创新与研究能力被视为人类在人工智能时代中坚守的一片独特领地。 然而,一篇来自西湖大学深度学习实验室的论文在科学界掀起了波澜。
10/24/2024 11:55:00 AM
ScienceAI

量化617,462种人类微蛋白必需性,北大LLM蛋白质综合预测与分析,登Nature子刊

编辑 | 萝卜皮人类必需蛋白(HEP)对于个体的生存和发育必不可少。 然而,鉴定 HEP 的实验方法通常成本高昂、耗时费力。 此外,现有的计算方法仅在细胞系水平上预测 HEP,但 HEP 在活体人类、细胞系和动物模型中有所不同。
12/9/2024 11:55:00 AM
ScienceAI

全面超越CoT!Meta田渊栋团队新作:连续思维链

比思维链更厉害的方法是什么? 答:连续思维链。 近日,Meta田渊栋团队提出了针对LLM推理任务的新范式:Coconut( Chain of Continuous Thought)。
12/19/2024 9:48:07 AM
新智元

LLM时代,计算蛋白质科学进展如何?香港理工大学等发布系统性综述

编辑丨coisini作为生命的基本构建单元,蛋白质在几乎所有基本生命活动中扮演着不可或缺的角色,例如新陈代谢、信号传导、免疫反应等。 如下图所示,蛋白质遵循序列 - 结构 - 功能范式。 图注:蛋白质遵循序列-结构-功能范式。
2/7/2025 6:25:00 PM
ScienceAI

本地部署 DeepSeek:打造你的专属 AI 推理环境,简单明了适合新手

随着 AI 大模型的爆发,DeepSeek 作为一款备受瞩目的开源大模型,吸引了众多开发者的关注。 如何在本地搭建 DeepSeek 推理环境,以便更高效地进行 AI 研究和应用开发? 本篇文章将为你详细解析本地部署 DeepSeek 的完整流程,让你轻松打造属于自己的 AI 推理环境。
2/12/2025 11:59:15 AM
派大星

清华大学AIR联合水木分子开源DeepSeek版多模态生物医药大模型BioMedGPT-R1

编辑 | ScienceAI2025 年初,DeepSeek给全球引发了 AI 大模型的新一轮热议。 多家市场咨询公司指出,在 DeepSeek 的影响下,从大模型供应商到基础设施和平台供应商的整个 AI 产业生态都掀起了一波「新浪潮」。  DeepSeek R1 以其强大的推理能力,为各行各业带来了智能化升级新机遇。
2/21/2025 4:03:00 PM
ScienceAI

让DeepSeek更可靠!清华提出Hyper-RAG,用超图提升知识建模精准度

大语言模型(Large Language Models, LLMs)在面对专业领域知识问题的时候,经常会生成偏离既定事实的回复,或模糊不清的回答,从而带来了潜在应用风险。 检索增强生成(Retrieval-Augmented Generation, RAG)通过构建特定领域知识库,采用基于向量的检索技术来提取与给定查询相关的信息,从而使LLM能够生成更准确、更可靠的内容。 然而,现有的基于图的RAG方法受限于仅能表示实体之间的成对关联,无法表示那些更复杂的多实体间的群组高阶关联,导致数据结构化过程中这些高阶信息的丢失。
4/21/2025 8:45:00 AM
新智元

字体控狂喜!Liblib AI 黑科技 RepText:无需理解文字,AI就能 1:1 复刻多国语言视觉效果

Liblib AI提出了 RepText,可以使预训练的单语文本转图像生成模型能够以用户指定的字体准确渲染,或者更准确地说,复制多语种视觉文本,而无需真正理解这些字体。 这样不管是中文、日文、韩文还是其他语言都可以精准的生成! 从某种意义上说也算是打破了AI图文生成语言的壁垒!
5/9/2025 9:12:00 AM

CVPR 2025 | 零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征

当前大型视觉语言模型(LVLMs)普遍存在「物体幻觉」问题:模型会凭空生成图像中不存在的物体描述。 为了高效地实现幻觉消除,西安交通大学研究团队提出了一种利用「幻觉子空间」(HalluSpace)进行零空间投影的高效模型权重编辑方法Nullu(Null space of HalluSpace)。 论文地址:::从特征空间寻找到正常样本表征与幻觉样本特征的核心差异。
6/30/2025 8:15:00 AM

视觉语言模型如何突破感知边界?上海 AI 新势力提出“世界意识”赋能真实环境规划

——如何让多模态智能体真正“看懂”世界并做出复杂决策“把切好的苹果片冰一下再丢进垃圾桶”——这样一条看似普通的自然语言指令,若让一台具身智能体(Embodied Agent)执行,其背后实则隐藏了多步规划、常识应用、环境理解、工具使用等一系列交互复杂度极高的子任务。 如何让 AI 理解任务的潜台词、合理分解步骤,并在真实视觉输入中找准对象并正确执行,正是当前具身智能与多模态学习面临的最大挑战之一。 具身智能与多模态规划的研究背景具身智能(Embodied Intelligence)可以被视为 AI 研究“从认知走向行为”的转折点。
7/1/2025 1:35:00 AM
FlerkenS

无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer

我们终于摆脱 tokenization 了吗? 答案是:可能性无限大。 最近,Mamba 作者之一 Albert Gu 又发新研究,他参与的一篇论文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一个分层网络 H-Net,其用模型内部的动态分块过程取代 tokenization,从而自动发现和操作有意义的数据单元。
7/14/2025 8:50:00 AM

四款扩散大语言模型全部破防?上交&上海AI Lab发现致命安全缺陷

扩散语言模型(Diffusion-based LLMs,简称 dLLMs)以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性,成为一个重要的发展方向。 相较传统的自回归语言模型,dLLMs 既可以一次性生成多个位置的词,也能更自然地完成文本插入、改写、补全等任务,被广泛应用于交互式问答、代码生成、甚至多模态场景。 但在这股看似技术跃迁的浪潮背后,一场潜藏的安全危机正在酝酿:能否继续沿用自回归模型的对齐与防护机制,保障dLLM的输出安全?
7/24/2025 9:15:00 AM

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

本文的第一作者为北京大学王选计算机研究所博士生雷廷,通讯作者为博士生导师刘洋。 团队近年来在 TPAMI、CVPR、ICCV、ICML 等顶会上有多项代表性成果发表,多次荣获多模态感知和生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。 目前的 HOI 检测方法普遍依赖视觉语言模型(VLM),但受限于图像编码器的表现,难以有效捕捉细粒度的区域级交互信息。
8/20/2025 9:13:00 AM
  • 1