AI在线 AI在线

性能提高87%,数据需求减70%,天大等开发化学毒性预测模型,登Nature子刊

编辑丨%于化学领域,多物种急性毒性评估构成了化学品分类、标签和风险管理的基础。 传统机器学习模型常因人类毒性数据稀缺(部分端点仅 140 条可用数据)陷入预测困境。 天津大学等联合团队针对传统模型的使用缺陷,开发了最新的条件急性毒性评估(ToxACoL)框架,通过端点关联图建模 伴随双向学习的方式,实现毒性的评估。
图片

编辑丨%

于化学领域,多物种急性毒性评估构成了化学品分类、标签和风险管理的基础。传统机器学习模型常因人类毒性数据稀缺(部分端点仅 140 条可用数据)陷入预测困境。

天津大学等联合团队针对传统模型的使用缺陷,开发了最新的条件急性毒性评估(ToxACoL)框架,通过端点关联图建模 + 伴随双向学习的方式,实现毒性的评估。

该研究以「ToxACoL: an endpoint-aware and task-focused compound representation learning paradigm for acute toxicity assessment」为题,于 2025 年 7 月 1 日刊登于《Nature Communications》。

图片

论文链接:https://www.nature.com/articles/s41467-025-60989-7

毒性评估方法

据统计,全球每年新增 10 万种化学品,但毒性评估面临数据失衡、跨物种实验偏差等现实困境。

为了解决模型预测中化合物繁多的种类与目标终点数据稀缺问题,研究者提出了一种机器学习范式——伴随相关性学习(Adjoint Correlation Learning),用于化合物的多物种急性毒性评估,将其命名为 ToxACoL。

基于公开的急性毒性数据,ToxACoL 利用图拓扑建模多条件终点的关系,并引入伴随相关机制,以并行处理与整合信息。

通过学习终点之间的关系,ToxACoL 显著提高了数据稀缺终点的预测准确性,与最先进的方法相比,将人类、女性、男性的口服最低中毒剂量 TDLo 预测性能分别提高 56%、87%和 43%,并将稀疏终点所需的训练数据减少了约 70%-80%。

图片

图 1:ToxACoL 的高层次概述。

成果叙述

前文中已叙述,通过引入伴随相关机制,ToxACoL 得以并行学习多条件标签和多类型样本信息,并在多条件急性毒性评估中取得了良好的性能。

通过皮尔逊相关系数(PCC),团队基于「当共有的化合物数量超过一定阈值且它们的毒性测量值高度相关时,认为这两个终点是相关」的推断,构建了急性毒性终点图,节点代表毒性终点,边缘代表依赖关系。

最后利用图卷积网络(GCN)传播端点关联信息,多个伴随相关层可以依次级联。

在 5 折交叉验证上,ToxACoL 与其他现有的模型进行了比较。ToxACoL 实现了平均 R² 为 0.5843,平均 RMSE 为 0.6396,超过了之前表现最好的算法(DLCA)。

图片

图 2:59 端点数据集上多条件急性毒性估计的性能比较。

为了应对现实世界里的化合物毒性评估,ToxACoL 需要在处理数据稀缺端点方面(尤其是与人类有关)展示它的性能与效率。

在此前提到过的三类 TDLo 端点评估中,ToxACoL 在三个终点上分别达到了 0.50、0.43 和 0.40 的 R²;在 21 个随机削减至某一特定比例的小型终点训练里,ToxACoL 只需要使用其他方法训练测量数据的 20%–30% 的小规模终点数据,就能达到最先进的方法之前的最佳性能。

更多 ToxACoL 的性能表现与其对于化合物分子结构的可视化表现,此处不做过多赘述。

成果斐然的评估方法

为了让更多研究人员能直接使用预训练后的 ToxACoL,团队将其集成到了线上网页平台,此平台还提供化学物质的预测 GHS 分类。团队相信这个平台可以为验证过程提供新的途径,并希望成为监管应用中的一项有用资源。

线上平台链接:https://toxacol.bioinforai.tech/

该项成果的进步在于,其能从化合物数据和毒性终点同步双向学习,开发了反向相关机制,同时处理化合物和终点嵌入。

ToxACoL 的有效性和应用价值已经通过全面的多终点性能评估、稀有物种终点的性能提升、物种外推模式探索等多重实验场景验证,展示了其在处理不平衡多任务数据集方面的稳健性。

团队表示,未来的工作里,ToxACoL 将会继续扩展以适应更广泛的急性毒性任务,甚至包括其他化学相关的任务。

代码链接:https://github.com/LuJiangTHU/Acute_Toxicity_FSL

相关资讯

微软诞生50周年,比尔・盖茨撰文忆往昔,并发布了Altair BASIC源代码

1975 年 4 月 4 日,比尔・盖茨和保罗・艾伦在美国新墨西哥州阿尔伯克基市创立了微软公司。 到今天,半个世纪过去了,微软早已成长为一家超级科技巨头。 近日,比尔・盖茨亲自撰文回忆了微软的诞生和他们的第一笔业务,同时还通过一份 157 页的 PDF 文件分享了他们为这项业务编写的 Altair BASIC 源代码。
4/5/2025 5:13:00 PM
机器之心

内部爆料:Alexandr Wang上任第一把火,Meta大模型闭源

曾经被称为「开源之光」的 Meta,之后可能也要走闭源路线了。 据知情人士透露,Meta 新成立的超级智能实验室近期正在讨论一项可能改变其人工智能发展方向的重大决策。 在 Meta 内部,关于 AI 发展路径出现了不同声音。
7/15/2025 11:47:00 AM
机器之心

AI for Science:人工智能改变化学领域,机器学习范式加速化学物质发现

随着人工智能技术兴起,在化学领域,传统的基于实验和物理模型的方式逐渐与基于数据的机器学习范式融合。越来越多的用于计算机处理数据表示被开发出来,并不断适应着以生成式为主的统计模型。
3/6/2022 1:11:00 PM
机器之心
  • 1