AI在线 AI在线

首个面向肽分子设计的大模型平台:直接「读序列」出结合子,无需结构输入即可生成

编辑丨%看病就医,医生会先进行诊断,在了解病症的基础上,给出治疗建议。 传统药物设计也遵循类似的逻辑——建立在对病原体或疾病机制的了解之上。 现在,AI 带来了一种出乎意料的突破:就像无需看病直接吃药一样,它能够设计出粘附并分解体内有害蛋白质的小分子,即使科学家完全不清楚这些蛋白质的结构与形态。
图片

编辑丨%

看病就医,医生会先进行诊断,在了解病症的基础上,给出治疗建议。传统药物设计也遵循类似的逻辑——建立在对病原体或疾病机制的了解之上。

现在,AI 带来了一种出乎意料的突破:就像无需看病直接吃药一样,它能够设计出粘附并分解体内有害蛋白质的小分子,即使科学家完全不清楚这些蛋白质的结构与形态。

这是一个很直观的想法:如果把目标蛋白序列末端的「肽结合段」掩蔽起来,微调模型以重构结合区,或许就能直接根据目标序列条件生成能结合该靶点的肽,而无需结构输入。美国宾夕法尼亚大学(University of Pennsylvania)与杜克大学(Duke University)等据此提出了一种基于靶序列设计的全新线性肽配体设计模型 PepMLM。

他们的研究成果以「Target sequence-conditioned design of peptide binders using masked language modeling」为题,于 2025 年 8 月 13 日刊登在《Nature Biotechnology》。

图片

论文链接:https://www.nature.com/articles/s41587-025-02761-2

从序列直接设计结合子

在过去的几年里,深度学习通过注意力机制的应用,彻底改变了自然语言处理(NLP),特别是在蛋白质等其他语言模型中的应用。研究团队之前所开发的 PepPrCLIP 模型首先从潜在空间中采样自然肽候选者,然后通过对比模型进行筛选以确定目标序列特异性。

但很遗憾的是,一种纯粹从头开始、基于目标序列的结合基序设计算法还尚未开发出来。

为了实现这一目标,团队引入了 PepMLM 算法,基于掩码语言模型,建立在 ESM-2 的基础上。他们把目标蛋白序列与其已知肽结合段拼接,在训练时把肽段全部掩码,任务就是重构这部分序列。

通过专注于肽区域的完整重建,PepMLM 成为一种完全基于序列、条件于靶标的从头设计结合剂工具,为开发更有效的、针对构象多样的蛋白质的治疗性结合剂铺平了道路。

图片

图 1:PepMLM 模型的概述与评估。

训练数据经聚类与去冗余后,构成了约 10,000 条训练样本与 203 条测试样本(binder 长度 ≤ 50,目标序列 ≤ 500),并用 pseudo-perplexity(PPL)作为对候选肽的置信度评分。生成时采用 greedy 或 top-k(最终选 k=3)采样以平衡多样性与置信度。该做法把「目标条件化 + 掩码重构」作为设计策略的核心。

分布分析显示,PepMLM 在低 PPL 区域与真实结合剂的分布非常接近,ESM-2 模型本身和随机设计的结合剂所观察到的分布偏移表明,PepMLM 可以通过 PPL 评分区分结合剂和非结合剂。

基准测试与实验对比

在 203 个测试目标上,PepMLM 的 PPL 分布与真实已知结合肽更为一致,能把「可信」结合子集中在低 PPL 区域,这一点通过与 AlphaFold-Multimer 的联合评估得到支持。

在氨基酸组成水平上,PepMLM 设计的序列与测试结合体的氨基酸分布高度一致,而 ESM-2 则表现出强烈的偏向丝氨酸(S)、亮氨酸(L)等。这些都表明在微调后,PepMLM 更好地捕捉了蛋白质-肽相互作用中的天然氨基酸偏好。

对于测试结合体中的每个位置,团队分析了 100 个设计结合体中相应位置的氨基酸类型,在所有位置和接触位置观察到 69.2% 和 68.4% 的氨基酸特异性变化。除了这些,在在训练分布之外的泛化中,PepMLM 并没有表现出对高同源性的依赖,而且能够很好地泛化到未见过的蛋白质底物上,激励对多种与疾病相关的靶标进行实验表征。

接下来,团队把 PepMLM 生成的肽嵌入到 uAb 等可诱导降解构架中进行细胞实验验证,展示了两个方向的证据链:

图片

图 2:体外 PepMLM 设计的肽结合子的实验验证。

在体外/细胞结合与降解实验中,PepMLM 生成的肽针对多种靶点(包括 NCAM1、AMHR2,以及 Huntington 相关靶点 HTT 等)表现出序列特异性结合并能诱导蛋白水平下降。PepMLM 仅从目标序列生成有前景的结合体候选物,并且成功率高于当前最先进的结合体设计模型。

图片

图 3:体外筛选源自 PepMLM 的抗病毒 uAb。

另一方面,针对三种高危病毒(NiV、HeV、HMPV)磷蛋白的筛选,实验里通过 PepMLM 设计了 20 款 uAb,后续的筛查显示约 37 个 降解剂 在 20%–49% 的范围内降低目标蛋白表达(总体命中率 ~63%),并有若干在感染模型中将磷蛋白近乎完全清除的候选。

整体而言,实验命中率与计算层面的 hit rate 呈一致趋势,证明 PepMLM 的设计可转化为生物功能。

小结

PepMLM 是 ESM-2 的微调版本,采用简单的掩码-解掩码方案,提供了一种设计线性肽结合物的简便框架。研究团队表示,PepMLM 不是标准的生成序列模型,与传统的自回归或离散扩散和流匹配模型相比有所不同。

尽管使用的表述更为简约,但团队依旧有力地证明了 PepMLM 在体外、体内以及治疗相关的情境下都能生成强大的结合物设计。 它把「掩码式语言建模」应用到目标条件化肽设计上,做到无需结构输入即可生成、优先排序并在细胞中验证候选肽。

总体来看,这是一条「从序列到候选再到功能验证」的可行路径,尤其适合那些结构不可得或高度可变的难以设计药物靶点群体。

相关资讯

活性提高42倍,ML引导的无细胞表达加速酶工程,登Nature子刊

编辑 | 萝卜皮酶是人类生活中不可或缺的天然催化剂,不仅助我们消化食物,还能增强香水香味、提高洗衣效率,甚至用于疾病治疗。 科学家们正使用酶工程创造新酶,用于吸收温室气体、降解环境毒素、研发高效药物。 但是,酶工程受限于快速生成和使用大量序列功能关系数据集进行预测设计的挑战。
1/24/2025 2:55:00 PM
ScienceAI

AI赋能蛋白质研究:SaprotHub让蛋白质AI模型训练和调用不再有门槛!

编辑 | ScienceAI近年来,AI 技术在蛋白质研究领域发挥了越来越重要的作用。 从 AlphaFold2 在结构预测任务上的脱颖而出,到各类蛋白质语言模型(PLMs)在功能预测方面的重大进展,生物研究者们可以利用各式各样的 AI 模型来辅助他们的研究。 然而,随着模型变得越来越复杂,如何训练和调用这些 AI 模型对于缺乏机器学习专业知识的研究者来说是一件非常具有挑战的任务,也因此限制了 AI 技术在实际研究中的应用。
1/23/2025 5:44:00 PM
ScienceAI

高灵敏探索质谱,滑铁卢、中原AI院团队基于深度学习的端到端方法

编辑 | 萝卜皮基于质谱的蛋白质组学中肽段鉴定对于理解蛋白质功能和动力学至关重要。 传统的数据库搜索方法虽然应用广泛,但依赖于启发式评分函数,必须引入统计估计才能获得更高的鉴定率。 加拿大滑铁卢大学 (University of Waterloo)和中原人工智能研究院(中原 AI 院)的研究团队提出了 DeepSearch,一种基于深度学习的串联质谱端到端数据库搜索方法。
1/24/2025 2:56:00 PM
ScienceAI
  • 1