AI在线 AI在线

Nature丨首个AI生成的基因编辑器,脱靶率更低、免疫更轻,兼容碱基编辑

编辑丨&在当下,基因编辑技术在科研工作中并不少见,不少疾病的药物研发、作物改良,都少不了它的技术支持。 源自微生物的 CRISPR 基因编辑器虽然强大,但在移植到非原生环境后,其「功能权衡」——或者说,在活性、特异性等方面的表现并不尽如人意。 基于这种现状,美国加利福尼亚的 Profluent Bio 工作室借助 AI 的辅助设计,构建了一个包含超过 100 万 CRISPR 操纵子的数据集,并提出了一种由人工智能生成的基因编辑器 OpenCRISPR-1,与碱基编辑兼容。
图片

编辑丨&

在当下,基因编辑技术在科研工作中并不少见,不少疾病的药物研发、作物改良,都少不了它的技术支持。源自微生物的 CRISPR 基因编辑器虽然强大,但在移植到非原生环境后,其「功能权衡」——或者说,在活性、特异性等方面的表现并不尽如人意。

基于这种现状,美国加利福尼亚的 Profluent Bio 工作室借助 AI 的辅助设计,构建了一个包含超过 100 万 CRISPR 操纵子的数据集,并提出了一种由人工智能生成的基因编辑器 OpenCRISPR-1,与碱基编辑兼容。

该研究成果以「Design of highly functional genome editors by modelling CRISPR–Cas sequences」为题,于 2025 年 7 月 30 日刊登在《Nature》。

图片

论文链接:https://www.nature.com/articles/s41586-025-09298-z

CRISPR–Cas Atlas

在明确了现有瓶颈之后,接下来一同了解「CRISPR–Cas Atlas」如何为 AI 设计提供丰富土壤。

研究团队首先从 26.2 Tbp 的全球微生物组装基因组中,通过 CRISPRCasFinder 等工具识别出 1,246,088 条CRISPR–Cas 操作子(operon),由此构建了前所未有的「CRISPR–Cas Atlas」。

这是一个包含了 Cas 蛋白、CRISPR 阵列、转激活 CRISPR RNA(tracrRNA)和 PAM 的 CRISPR–Cas 基因座数据集。相较于其他数据库,CRISPR–Cas Atlas 有着更为广泛的自然多样性。

与 UniProt 数据库相比,该 Atlas 所涵盖的 Cas 蛋白簇数量提升约 2.7 倍,对于如 Cas9(4.1 倍)、Cas12a(6.7 倍)和 Cas13(7.1 倍)等家族,扩展更为显著。这一海量操作子库不仅极大丰富了数据集,也为随后 AI 设计打下了坚实基础。

图片

图 1:多样化 Cas 蛋白质家族的生成。

团队在「Atlas」基础上,基于 ProGen2-base 模型进行家族特异性微调(fine-tuning),平衡了蛋白质家族的代表性与序列簇的大小,并生成了 400 万条候选序列。

经过多重过滤后,生成的序列相比 CRISPR–Cas Atlas 中的天然蛋白质,多样性扩增 4.8 倍,在引导生成特定家族的序列中,通常在提供 50 个残基或更少的情况下,可以观察到对目标家族近乎完美的符合,展现了AI在蛋白设计领域的无与伦比能力。

与自然 CRISPR–Cas 蛋白相比,生成序列显示出相似程度的嵌合性,表明 LMs 生成的序列新颖性类似于进化,且生成的蛋白质仍被 AlphaFold2 可靠地预测,其中有 81.65% 的结构够到了 80 的平均预测局部距离差异测试(pLDDT)得分门槛。

OpenCRISPR-1

研究团队着重描写了他们在专注于生成 SpCas9 进化邻域中的 II 型效应子,最终产生的 OpenCRISPR-1 编辑系统。

这是一种原名为 PF-CAS-182 的最佳候选物,从 209 种经过微调的 SpCas9 样蛋白中脱颖而出。其在目标位点的活性与 SpCas9 相当,同时在已知的 SpCas9 脱靶位点的编辑效率降低了 95%

OpenCRISPR-1 没有与之前工程化高保真 Cas9 变体中的任何一种共享突变,这表明它通过一组独特的分子相互作用实现了超低脱靶率。

图片

图 2:OpenCRISPR-1 在 PAM、引导序列和碱基编辑中的特性表征。

与 SpCas9 相比,人类血清中针对 OpenCRISPR-1 的抗体结合量显著更低,降低临床应用的排斥风险。并且,OpenCRISPR-1 的兼容性强到可直接改造为碱基编辑器(如 ABE),在所有三个靶点上都表现出高效的 A 到 G 转换(编辑率 35-60%),并且没有 indel 副产物。

OpenCRISPR-1 在之前的实验中一直表现出高度的编辑效率,既可以作为完整生成的基因编辑器的一部分,也可以作为 SpCas9 在现有编辑系统中的即插即用替代品。

不止步于改造

大型蛋白质语言模型不仅能生成结构可信的新序列,还能产出真正可用的基因编辑器。作为工作的一部分,研究团队整理了 CRISPR–Cas Atlas——一个大型的 CRISPR 系统资源,用于训练蛋白质 LMs。

这项研究主要集中在 II 类效应蛋白上,不过团队的探索性结果表明,相同的方法可能也适用于其他 II 类系统的效应蛋白。为确保 AI 设计工具的安全与有效,后续需在动物模型中验证体内编辑效率与安全性,并与监管机构协作完善审批流程。

随着 CRISPR–Cas Atlas 持续扩容与模型迭代,加速构建低免疫原性、多目标定制化编辑工具箱的前景已然可期。

相关资讯

超强DNA大模型「GENERator」问世!解锁生命密码设计新范式

编辑 | ScienceAI在基因组学研究领域,DNA 序列的解码与预测一直是科学家们面临的核心挑战。 随着测序技术的飞速发展,我们能够以前所未有的速度获取海量基因组数据,但如何高效解读这些复杂的遗传信息,仍是一个亟待解决的难题。 近年来,大语言模型(LLMs)在自然语言处理领域的成功,为生物序列分析带来了新的契机。
2/17/2025 10:11:00 AM
ScienceAI

人类增强子突变敏感性图谱首次绘制:AI 与体内实验揭示发育调控密码

编辑丨&ENCODE 计划(Encyclopedia of DNA Elements)中提到,人类基因组中仅 2% 序列编码蛋白质,其余 90% 非编码区的调控功能长期成谜。 了解人类生物学需要的不仅仅是绘制基因图谱,还必须了解基因表达是如何被调节的,以指导身体系统的健康发育、生长和维系。 对于作为远端调控元件的增强子,其突变与先天性心脏病、肢体畸形等发育疾病密切相关。
7/10/2025 3:02:00 PM
ScienceAI

Nature丨从基因组到田间,华中农业大学、中国科学院等提出融合生物技术与AI的育种新范式

编辑丨&农业,生民之本。 当金黄的麦浪与稻田在风中起伏,农业研究者的辛劳不知是否会因此而减轻少许。 部分研究者所采用的传统针对作物改良的方式受限于自然与植株本身的潜力,在当下还无法满足粮食安全的需要。
8/4/2025 10:24:00 AM
ScienceAI
  • 1