AI在线 AI在线

统一结构与上下文信息的计算平台,德国慕尼黑大学等提出端到端的单细胞扰动分析框架

编辑丨&随着单细胞技术的发展,研究者可以在数以万计的细胞中同时测量多个基因或分子标记,并且通过遗传、化学或环境干扰(perturbation)引入实验变量,深入理解细胞反应机制。 这种类型的数据不仅体量巨大,而且结构复杂,不同实验条件、不同细胞类型和干扰策略之间的差异,使得传统的分析工具难以有效覆盖整体流程。 现有方法大多只针对单个任务,或者专注于某种类型的环境干扰,而缺乏一个能够统一管理、分析和解释各种单细胞扰动实验的平台。
图片

编辑丨&

随着单细胞技术的发展,研究者可以在数以万计的细胞中同时测量多个基因或分子标记,并且通过遗传、化学或环境干扰(perturbation)引入实验变量,深入理解细胞反应机制。

这种类型的数据不仅体量巨大,而且结构复杂,不同实验条件、不同细胞类型和干扰策略之间的差异,使得传统的分析工具难以有效覆盖整体流程。现有方法大多只针对单个任务,或者专注于某种类型的环境干扰,而缺乏一个能够统一管理、分析和解释各种单细胞扰动实验的平台。

考虑到现有的生物背景,德国慕尼黑亥姆霍兹中心(Helmholtz Center Munich)与慕尼黑工业大学等(Technical University of Munich)提出了一个基于 Python 的模块化框架 pertpy,可用于分析大规模单细胞扰动实验。

相关研究内容以「Pertpy: an end-to-end framework for perturbation analysis」为题,于 2025 年 12 月 31 日发布在《Nature Methods》。

图片

论文链接:https://www.nature.com/articles/s41592-025-02909-7

端到端的框架

单细胞技术的进步,尤其是 Perturb-seq、CROP-seq 等高通量扰动技术的出现,让科学家能够以前所未有的规模进行“细胞实验”。他们可以同时敲除成千上万个基因,或施加数百种药物,并在单细胞分辨率下观察结果。这为系统性理解基因功能、药物机制和疾病通路提供了革命性的窗口。

但这种实验常被数据的庞大数量级冲垮。现有的工具,如 MUSIC、ScMAGeCK 等,只擅长处理特定类型的扰动或解决单一问题。而为了解决扩展性与通用性的框架缺失问题,pertpy 团队给出了自己的看法。

团队的解决方案并非简单地堆积功能,pertpy 的设计哲学是模块化、互操作与可扩展。它包含分析单一和组合扰动的方法,涵盖多种扰动数据类型,包括遗传敲除、药物筛选和疾病状态。该框架设计灵活,提供 100 多个可组合且互作的分析功能,组织成模块,进一步简化后续的解释和可视化。

图片

图 1:pertpy 框架的模块。

团队表示,尽管设计中 pertpy 主要设计用于探索遗传改造、药物治疗等扰动,但其效用也扩展到多种扰动环境,包括未应用实验扰动的多种疾病状态。所有这些功能通过 JAX 库实现 GPU 加速,其速度相较于原始实现有数量级提升。

首先,框架通过数据转化,将引导 RNA(gRNA)分配给细胞。接下来,它会处理诸如技术变异、其他单细胞特异性质量控制问题等不受欢迎的混杂因素。

经过严格的质量控制后,pertpy 开始对细胞系本体或药物本体进行扰动注释处理,并用来自癌症依赖地图的额外元数据丰富扰动。而为了迎接扰动数量增加带来的挑战,pertpy 提供了多种不同方式来学习生物学上可解释的扰动空间,这些方法不同于细胞的个体主义视角,而是每个扰动生成一个单一嵌入,汇总细胞反应。

场景验证

为验证 pertpy 学习有意义扰动空间的能力,团队分析了最初由 Norman 等人公开发布的 CRISPRa 筛查数据集。,包含 111,255 个 K562 细胞的单细胞转录组,经历了 287 次单基因和基因对扰动。

图片

图 2:通过 pertpy 的扰动空间流水线,学习组合 CRISPRa 扰动 scRNA-seq 数据中的统一扰动空间。

团队测试了多种针对微扰的处理策略,并利用基于多层感知子(MLP)的判别器分类器,将剩余细胞的归一化基因表达投射到扰动空间中。

结果表示,所有策略产生的微扰空间相似。这表明对于该数据集,不依赖基于微扰特征的单元过滤方法更为可取。

而面对复杂的微扰实验的发现流程, pertpy 同样以极高的效率分析了包含 172 个细胞系和 13 种药物治疗的数据集。这只需要几个步骤:注释、可视化、比较分析。这其中还允许用户将其细胞系的 RNA 谱与已建立的公开数据集进行比较,从而提供快速的质量控制功能。

图片

图 3:scRNA-seq 药物筛选数据中存活性相关反应特征的解卷积。

可扩展的单细胞扰动分析

作为一款开源的分析工具,pertpy 将过去分散的单细胞 perturbation 分析方法整合到一个结构化、可重复、易扩展的框架中。它极大地降低了领域门槛,为构建大规模扰动图谱奠定了基础。

Pertpy 不仅为研究者提供了工具链,还为未来算法的开发和集成奠定了基础,是单细胞 perturbation 研究数据层面解决方案的重要一步。它提供的丰富距离度量和分析模块,正是评估这些模型预测是否具有生物学意义的标尺。

相关资讯

腾讯AI Lab 3篇蛋白质组论文入选国际顶级期刊,为阐释生命提供重要技术参考

腾讯AI Lab 3篇蛋白质组论文入选国际顶级期刊,为阐释生命提供重要技术参考

编辑 | ScienceAI只有蛋白质组才能从根本上阐释生命。3月20日,腾讯 AI Lab实验室3篇蛋白质组论文相继入选国际顶级学术期刊,论文分别在蛋白质组的检测、分析以及探索发现方面提出全新的研究方案,为人类从根本上阐释生命提供重要技术参考。科学界曾经认为,只要绘制出人类基因组序列图,就能了解疾病的根源,但事实并非如此。相同的基因往往有不同的表达,比如,人体不同组织器官的基因组是一样的,但是各个组织器官的蛋白质组不完全一样。人和鼠的基因组的差别仅为1%,但是其形态、性状差别非常大,这就是蛋白质组不一样的体现。中
3/20/2024 5:54:00 PM ScienceAI
Nature发布:2025年值得关注的七项技术

Nature发布:2025年值得关注的七项技术

编辑 | 20492025 年,全球科技发展正以惊人的速度重塑人类社会的未来。 在气候危机、疾病威胁与资源短缺的多重压力下,技术创新聚焦于两大核心方向:可持续性与人工智能(AI)的深度结合。 《Nature》盘点了今年将密切关注的七项技术,从实验室的自动化革命到城市的生态改造,从精准医疗到环境修复,七项技术不仅加速科学发现,更试图为人类提供应对复杂挑战的规模化方案。
2/1/2025 3:03:00 PM ScienceAI
哈工大与腾讯开发:一种专门针对蛋白质组数据设计的反卷积方法

哈工大与腾讯开发:一种专门针对蛋白质组数据设计的反卷积方法

编辑 | 萝卜皮细胞类型反卷积是一种用于从大量测序数据中确定/解析细胞类型比例的计算方法,并且经常用于分析肿瘤组织样本中的不同细胞类型。然而,由于重复性/再现性、参考标准可变以及缺乏单细胞蛋白质组参考数据的挑战,使用蛋白质组数据分析细胞类型的反卷积技术仍处于起步阶段。哈尔滨工业大学、腾讯 AI lab 以及苏黎世联邦理工学院的研究团队合作开发了一种专门针对蛋白质组数据设计的基于深度学习的反卷积方法(scpDeconv)。scpDeconv 使用自动编码器利用来自批量蛋白质组数据的信息来提高单细胞蛋白质组数据的质量,
10/25/2023 11:10:00 AM ScienceAI