Nature丨首个AI生成的基因编辑器，脱靶率更低、免疫更轻，兼容碱基编辑

编辑丨&在当下，基因编辑技术在科研工作中并不少见，不少疾病的药物研发、作物改良，都少不了它的技术支持。源自微生物的 CRISPR 基因编辑器虽然强大，但在移植到非原生环境后，其「功能权衡」——或者说，在活性、特异性等方面的表现并不尽如人意。基于这种现状，美国加利福尼亚的 Profluent Bio 工作室借助 AI 的辅助设计，构建了一个包含超过 100 万 CRISPR 操纵子的数据集，并提出了一种由人工智能生成的基因编辑器 OpenCRISPR-1，与碱基编辑兼容。

编辑丨&

在当下，基因编辑技术在科研工作中并不少见，不少疾病的药物研发、作物改良，都少不了它的技术支持。源自微生物的 CRISPR 基因编辑器虽然强大，但在移植到非原生环境后，其「功能权衡」——或者说，在活性、特异性等方面的表现并不尽如人意。

基于这种现状，美国加利福尼亚的 Profluent Bio 工作室借助 AI 的辅助设计，构建了一个包含超过 100 万 CRISPR 操纵子的数据集，并提出了一种由人工智能生成的基因编辑器 OpenCRISPR-1，与碱基编辑兼容。

该研究成果以「Design of highly functional genome editors by modelling CRISPR–Cas sequences」为题，于 2025 年 7 月 30 日刊登在《Nature》。

论文链接：https://www.nature.com/articles/s41586-025-09298-z

CRISPR–Cas Atlas

在明确了现有瓶颈之后，接下来一同了解「CRISPR–Cas Atlas」如何为 AI 设计提供丰富土壤。

研究团队首先从 26.2 Tbp 的全球微生物组装基因组中，通过 CRISPRCasFinder 等工具识别出 1,246,088 条CRISPR–Cas 操作子（operon），由此构建了前所未有的「CRISPR–Cas Atlas」。

这是一个包含了 Cas 蛋白、CRISPR 阵列、转激活 CRISPR RNA（tracrRNA）和 PAM 的 CRISPR–Cas 基因座数据集。相较于其他数据库，CRISPR–Cas Atlas 有着更为广泛的自然多样性。

与 UniProt 数据库相比，该 Atlas 所涵盖的 Cas 蛋白簇数量提升约 2.7 倍，对于如 Cas9（4.1 倍）、Cas12a（6.7 倍）和 Cas13（7.1 倍）等家族，扩展更为显著。这一海量操作子库不仅极大丰富了数据集，也为随后 AI 设计打下了坚实基础。

图 1：多样化 Cas 蛋白质家族的生成。

团队在「Atlas」基础上，基于 ProGen2-base 模型进行家族特异性微调（fine-tuning），平衡了蛋白质家族的代表性与序列簇的大小，并生成了 400 万条候选序列。

经过多重过滤后，生成的序列相比 CRISPR–Cas Atlas 中的天然蛋白质，多样性扩增 4.8 倍，在引导生成特定家族的序列中，通常在提供 50 个残基或更少的情况下，可以观察到对目标家族近乎完美的符合，展现了AI在蛋白设计领域的无与伦比能力。

与自然 CRISPR–Cas 蛋白相比，生成序列显示出相似程度的嵌合性，表明 LMs 生成的序列新颖性类似于进化，且生成的蛋白质仍被 AlphaFold2 可靠地预测，其中有 81.65% 的结构够到了 80 的平均预测局部距离差异测试（pLDDT）得分门槛。

OpenCRISPR-1

研究团队着重描写了他们在专注于生成 SpCas9 进化邻域中的 II 型效应子，最终产生的 OpenCRISPR-1 编辑系统。

这是一种原名为 PF-CAS-182 的最佳候选物，从 209 种经过微调的 SpCas9 样蛋白中脱颖而出。其在目标位点的活性与 SpCas9 相当，同时在已知的 SpCas9 脱靶位点的编辑效率降低了 95%。

OpenCRISPR-1 没有与之前工程化高保真 Cas9 变体中的任何一种共享突变，这表明它通过一组独特的分子相互作用实现了超低脱靶率。

图 2：OpenCRISPR-1 在 PAM、引导序列和碱基编辑中的特性表征。

与 SpCas9 相比，人类血清中针对 OpenCRISPR-1 的抗体结合量显著更低，降低临床应用的排斥风险。并且，OpenCRISPR-1 的兼容性强到可直接改造为碱基编辑器（如 ABE），在所有三个靶点上都表现出高效的 A 到 G 转换（编辑率 35-60%），并且没有 indel 副产物。

OpenCRISPR-1 在之前的实验中一直表现出高度的编辑效率，既可以作为完整生成的基因编辑器的一部分，也可以作为 SpCas9 在现有编辑系统中的即插即用替代品。

不止步于改造

大型蛋白质语言模型不仅能生成结构可信的新序列，还能产出真正可用的基因编辑器。作为工作的一部分，研究团队整理了 CRISPR–Cas Atlas——一个大型的 CRISPR 系统资源，用于训练蛋白质 LMs。

这项研究主要集中在 II 类效应蛋白上，不过团队的探索性结果表明，相同的方法可能也适用于其他 II 类系统的效应蛋白。为确保 AI 设计工具的安全与有效，后续需在动物模型中验证体内编辑效率与安全性，并与监管机构协作完善审批流程。

随着 CRISPR–Cas Atlas 持续扩容与模型迭代，加速构建低免疫原性、多目标定制化编辑工具箱的前景已然可期。

Nature丨首个AI生成的基因编辑器，脱靶率更低、免疫更轻，兼容碱基编辑

相关资讯

超强DNA大模型「GENERator」问世！解锁生命密码设计新范式

人类增强子突变敏感性图谱首次绘制：AI 与体内实验揭示发育调控密码

Nature丨从基因组到田间，华中农业大学、中国科学院等提出融合生物技术与AI的育种新范式