AI在线 AI在线

分析近六十种科学模型,MIT:基础模型或学得物理现实的共同底层表征,附实验证据

编辑丨coisini人工智能经历了一次范式转变,从定制化的任务专用模型转向了通用型「基础模型」。 模型在大量多样化数据集上进行预训练,因此能够执行诸多未经明确训练的下游任务。 这种涌现能力的关键在于其表征能力:基础模型学习每个输入的紧凑潜在表征,使其在远超训练样本范围的数据上仍能表现出色。
图片

编辑丨coisini

人工智能经历了一次范式转变,从定制化的任务专用模型转向了通用型「基础模型」。模型在大量多样化数据集上进行预训练,因此能够执行诸多未经明确训练的下游任务。这种涌现能力的关键在于其表征能力:基础模型学习每个输入的紧凑潜在表征,使其在远超训练样本范围的数据上仍能表现出色。

在语言和视觉领域的成功,激发了基础模型在科学领域的探索,各种模态与架构迥异的机器学习模型正在被训练。然而,这些模型是否学得了相似的物质内部表征仍不明确。

最近,来自麻省理工学院(MIT)的研究团队开展了一项分析研究,发现近六十种科学模型(涵盖字符串、图结构、三维原子尺度及蛋白质等多种模态)在广泛化学体系中学习到的表征具有高度一致性。这暗示基础模型正在学习物理现实的共同底层表征。

图片

论文地址:https://arxiv.org/pdf/2512.03750

研究概览

该研究涵盖 59 个模型,涉及多种输入模态(分子的 SMILES/SELFIES 字符串编码、三维原子坐标、蛋白质序列、蛋白质结构和自然语言)、架构(等变与非等变的机器学习相互作用势、保守与直接预测模型)和训练领域(分子、材料和蛋白质)。

图片

研究团队比较了来自五个数据集的物质表征,包括:

  • QM9 和 OMol25 的分子

  • OMat24 和 sAlex 的材料

  • RCSB 的蛋白质

具体而言,该研究通过将这些数据集中的结构输入每个模型,并保存其最后一层隐藏层的数值嵌入来生成表征,并使用四种截然不同的度量方法(直接作用于模型嵌入)来衡量表征对齐度,即两个模型的潜在空间有多相似。

图片图片

科学基础模型表征趋同性的证据

研究团队发现不同模态、训练任务和架构的科学基础模型,其潜在表征是显著对齐的。

随后,该研究又观察到随着模型性能的提升,它们的表征趋于收敛,这表明基础模型学习到了物理现实的一个共同底层表征。

图片

研究团队还通过探测模型已见过的分布内结构和未见过的分布外结构的表征,建立了一个基础模型泛化能力的动态基准。

图片

研究意义

该研究发现科学模型存在两种明显不同的机制:

  • 在训练数据相似输入上,高性能模型表征紧密对齐,而弱模型则偏离至表征空间的局部次优解;

  • 在与训练数据差异巨大的结构上,几乎所有模型都坍缩为低信息表征,这表明当前模型仍受限于训练数据与归纳偏置,尚未编码真正通用的结构。

而这项研究将表征对齐确立为科学模型基础层面泛化能力的量化基准。

随着模型规模的持续扩大,这项研究成果能够追踪通用表征范式的形成轨迹,并为筛选最能支持跨模态、跨物质类型、跨科学任务迁移应用的模型提供理论指引。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

相关资讯

MIT等开发SCIGEN工具,AI结构约束框架带来超千万种候选材料,成功合成新型量子晶体

MIT等开发SCIGEN工具,AI结构约束框架带来超千万种候选材料,成功合成新型量子晶体

编辑丨&将文本转换为图像的 AI 在生成材料方面表现出优越的天赋,在过去几年中,来自谷歌、微软和 Meta 等公司的生成材料模型利用其训练数据帮助研究人员设计了数千万种新材料。 但由于数据有限和结构复杂,功能性无机材料仍然稀缺。 麻省理工学院等的学者们提出了一种生成模型中的结构约束整合(SCIGEN)框架,该框架在基于扩散的生成模型中施加几何约束(如蜂窝状和 Kagome 晶格),以发现稳定的量子材料候选物。
10/22/2025 6:00:00 PM ScienceAI
普特南数赛公布,MIT创5连冠神话!3位00后华人称霸TOP 5

普特南数赛公布,MIT创5连冠神话!3位00后华人称霸TOP 5

普特南数学竞赛,结果出炉! MIT再次成为全世界的焦点,连续5年夺冠,5位本科生科横扫榜单TOP 5。 其中,有三位00后华人学生。
3/5/2025 9:40:00 AM 新智元
甭提静态AI了,MIT新框架让模型具备自学能力

甭提静态AI了,MIT新框架让模型具备自学能力

作者 | Ben Dickson编译 | 沈建苗出品 | 51CTO技术栈(微信号:blog51cto)近日,麻省理工学院(MIT)的研究人员已开发出一种名为自适应语言模型(SEAL)的框架,使大语言模型(LLM)能够通过更新自身的内部参数来持续学习和适应。 SEAL可以教LLM生成自己的训练数据并更新指令,让LLM能够永久吸收新知识并学习新任务。 这种框架特别适用于企业应用环境,尤其适用于在动态环境中运行的AI智能体,它们必须不断处理新信息并调整其行为。
6/30/2025 1:10:37 PM