
编辑丨&
不知道诸位读者都是否知道黑箱?这是指对特定的系统开展研究时,仅从其输入输出的特点了解该系统规律,而并不会涉及到其中系统内部的结构和相互关系。在材料科学里,很多研究者都困在「黑箱」里:实验结果零散,模拟结果庞杂,数据孤岛四处林立,导致新材料发现依然缓慢。
如何从无数的可能性中选择合适的材料仍然是材料发现中的一道难关。不过,日本东北大学的一组研究人员已经通过人工智能构建的材料图弥合了这一差距,他们构建了一张融合实验与模拟的 AI驱动材料地图,让模型学会从真实世界与虚拟计算中同时吸收知识。
此次研究以「A materials map integrating experimental and computational data via graph-based machine learning for enhanced materials discovery」为题,发布在《APL Machine Learning》。

论文链接:https://pubs.aip.org/aip/aml/article/3/3/036104/3355901/A-materials-map-integrating-experimental-and
材料图谱全家福
该图谱包含热电性能(zT)和结构相似性的坐标轴,每个数据点代表一种材料。在这个图谱上,结构相似(即相似)的材料出现在邻近位置。这样的分布可以引导研究人员找到特定情况下正确的材料——而无需浪费时间迷失方向。

图 1:研究中采用的数据流和数据分析过程。
数据从哪来、清到什么程度,决定了图能画得多靠谱。
团队先从开放的实验数据库 StarryData2 起步,他们对 7000 余篇论文的 40000 多例样本进行了严格清洗,最终选出 8,541 个配方。
在此基础上,用 Gradient Boosting Decision Tree 做 10 折交叉验证建模,R²=0.85,作为「实验视角」的打分器。接着,把模型应用到 Materials Project 里的结构化材料上,限定元素体系与筛选条件,得到 1,114 个计算端的候选组成。
这样一来结构有了、性质也有了,地图就有坐标系了。

图 2:由 MDL 使用 MPNN 架构生成的材料属性图。
从材料项目中获得的计算数据集包含了各种相关数据,这些数据按其他属性着色,并绘制成地图。通过提供对众多候选材料的直观、鸟瞰视角,它可以帮助研究者一眼选出有潜力的目标,将显著缩短新型功能材料的发展时间表。
如何寻找合适的材料
有了干净数据,接下来就是「把点排好队」。团队在 MDL 框架中考察了多种图模型(CGCNN、MPNN、MEGNet、SchNet、GCN),并把图卷积块重复次数 N 设为 4,再用 t-SNE 做降维。
表 1:各种基于图架构的材料属性预测性能。

结果非常有意思:消息传递神经网络(MPNN)在组织材料地图的结构复杂度上最能「看懂」材料的相似与分群,但并不一定带来数值预测精度的最优;在热电性质预测这件事上,GCN(R²≈0.8066)反而更佳,而 MPNN 的 R²≈0.610。
也就是说,MPNN 更擅长「塑形」,GCN 更擅长「报数」,二者各司其职,合起来既给出可视化的构图,又没有放弃扎实的量化回归。

图 3:交互式材料属性图。
最后,一张地图画得好不好,最终还要看它能不能带路方向对不对。团队用地图引导与模型评估串联,从 1,114 个候选里提出了具体化合物线索,并给出数据驱动的可解释依据(比如地图中的簇分布、与计算属性的相关性),这对实验者而言,是从「哪里有宝」到「为什么在那儿」的双重提示。
未来研究
该研究聚焦于包含六个选定元素(Sb、Te、Sn、Se、Bi、S)的材料的电热性能,通过机器学习模型对实验数据中的 zT 值进行训练,展示了预测能力。
这种由 AI 训练的材料图谱能够快速识别未知高性能材料的类似物,并将现有的合成方案作为下一步,从而减少试错。展望未来,团队计划将这一框架扩展到热电材料之外,这需要整合额外的特征变量,例如磁性、化学性质等,以创建一个更全面的材料图。