AI在线 AI在线

8小时处理300万细胞数据,复旦&上交研发双分支架构模型,登Nature子刊

编辑丨%在组织切片的微观世界里,基因表达的空间分布藏着解开生物奥秘的钥匙 —— 胚胎如何发育出肝脏、癌细胞为何侵袭转移,答案往往藏在基因「在哪里表达」的动态变化中。 但传统空间组学方法只能捕捉单一切片的基因表达量,却无法识别不同条件下基因空间位置变化的关键信号。 (如 Sepal 算法对差异空间表达模式基因的 F1 分数仅 41%)针对这些问题,复旦大学与上海交通大学的团队提出了 River 框架,通过双分支预测架构和事后归因策略,根据基因(或者其他特征)对条件差异的贡献进行排名。
图片

编辑丨%

在组织切片的微观世界里,基因表达的空间分布藏着解开生物奥秘的钥匙 —— 胚胎如何发育出肝脏、癌细胞为何侵袭转移,答案往往藏在基因「在哪里表达」的动态变化中。

但传统空间组学方法只能捕捉单一切片的基因表达量,却无法识别不同条件下基因空间位置变化的关键信号。(如 Sepal 算法对差异空间表达模式基因的 F1 分数仅 41%)

针对这些问题,复旦大学与上海交通大学的团队提出了 River 框架,通过双分支预测架构和事后归因策略,根据基因(或者其他特征)对条件差异的贡献进行排名。

该研究以「Prioritizing perturbation-responsive gene patterns using interpretable deep learning」为题,于 2025 年 7 月 2 日刊登在《Nature Communications》。

图片

论文链接:https://www.nature.com/articles/s41467-025-61476-9

为何基因的「位置变化」难以捕捉

在了解 River 框架相较于现在的模型的提升之前,我们首先要知道,对于传统组学,它们所面临的实验困境都有哪些。

随着实验技术的发展,诸如空间分辨转录组学这类技术使得实验数据得到了爆炸性的增长,而面对这种等级的数据量,急切需要一种大规模基因复杂空间表达模式的计算方法。

现有方法,例如空间可变基因 (SVG)方法和非空间方法,都无法识别差异空间表达模式(DSEP)基因。于是团队开发了 River,希望它能克服这些限制。

River 是一种基于深度学习的可解释方法,基于以下假设:只有跨切片具有显著 DSEP 的基因才能有助于切片或条件标签的预测。

通俗点来说,River 的过程可以归纳为以下步骤:

1.设计预测模型以充分利用多切片和多条件数据集中的空间感知基因表达特征;

2.量化每个基因对预测模型的贡献;

3.集成不同的深度学习归因方法,确定基因模式的优先级。

图片

图 1:River 的工作流程。

前文中所提到的「双分支预测架构」,包括一个位置编码器(用于从空间信息中提取特征)和一个基因表达编码器(用于从基因表达中提取特征),分别独立提取特征并将其融合到潜在空间中。

在训练阶段之后,River 采用多种深度学习归因策略来获得细胞水平基因贡献分数,然后将这些分数汇总以得出最终的全局分数。

团队强调:SVG、差异表达基因(DEG)和 DSEP 方法之间的主要区别对于理解 River 的独特贡献至关重要,因 DSEP 更侧重于空间分布模式在不同条件下发生显著变化的基因,而这恰恰是空间组学中的生物学重要性所在。

让基因「位置变化」显形

当然,一个模型的具体性能如何,还是需要与现有的其他模型进行比对。在模拟的数据集中,已知被扰动的基因被标记为阳性(DSEP 基因),其余基因则标记为阴性(背景或非 DSEP 基因),方便研究者对各类方法进行评估。

图片

图 2:模拟基准测试。

River 和 16 种竞争方法(这些方法为了能识别不同切片之间的 DSEP 基因已经过修改)在六个数据集上的性能对比显示,River 在 F1 分数上显著优于所有其他方法(p 值<0.05),中位 F1 分数约为 0.59,位居第一。

排名第二和第三的方法 Sepal 和 SpatialDE 的中位分数分别为约 0.41 和 0.32,其余接近零。

River 的归因模块可以为每个基因输出有意义的分数,优先考虑那些具有差异空间表达模式的基因。在对此模块的评分能力的验证中,River 始终为 DSEP 基因分配了更高的分数,且真正的 DSEP 基因与背景基因的分数差异显著。

寻找基因的「时间变化」

现有研究通常关注同一切片内的基因空间模式,而忽视了随时间变化的空间基因表达模式的变化。

研究团队应用 River 分析了跨越八个发育阶段的小鼠胚胎的 Stereo-seq 数据集。在这种情况下,River 识别出的差异基因可能既包括由发育引起的空间变化,也包括非空间变化。

图片

图 3:8 个发育阶段小鼠胚胎 Stereo-seq 数据集的分析。

可视化结果证实,River 识别出的优先基因在其发育轴上的时空变化中得到了确认。

团队在实验中发现,嵌入空间有效地将不同阶段的细胞区分开来,其区分效果优于使用 2000 个高变基因。相比之下,使用 River 选择的低优先级基因完全无法区分阶段。

在 River 优先基因集中,时间点越接近的基因表现出更相似的成对轮廓得分模式,并且聚类效果更好。

上述的分析展示了 River 捕捉发育过程中非空间差异的能力。此外,该模型在实战中也有不错的表现。

实战演示

在真实生物场景的演示中,River 也同样展示出自己的强大性能。

图片

图 4:在 slide-seq 数据集上的应用。

River 可以识别糖尿病引起的生精过程中的 DSEP 基因,也同样能识别出此前被证明与糖尿病睾丸中,胚胎干细胞或精子丢失有关的 Prm1 和 Prm2 基因。

River 在除空间转录组学之外的其他平台上也具备相当的泛化能力。其在 MERSCOPE 测量的脑空间转录组学数据集进行了演示,在约 7 分钟之内处理了包含超过 70,000 个细胞的切片,并以此表现完成了三次重复。

River 能够在 5 小时内成功处理 300 万细胞,运行时间与输入细胞数量几乎呈线性关系。随着图谱级数据集的规模和复杂性不断增加,River 的大规模处理性能,将会成为研究人员的强大计算工具。

向上一层的进步

团队的测试结果表明,River 不仅是一种简单的差异基因表达或 SVG 识别方法,而是专门设计用于在不局限于单切片和细胞独立假设的情况下识别 DSEPs。

River 框架的诞生,带来了差异空间表达模式识别问题的新解决观点。它能带领空间组学分析从「静态差异表达识别」迈向「动态空间模式解析」。

River 的结果可能会受到外部对齐算法的影响,但幸运的是,大多数应用情况下并不会出现此类问题。并且 River 可以无缝地与高级对齐方法结合使用,通过更好的方法提高性能。

后续的研究里,可以引入对比模块来强化框架。团队强调,批次效应仍是一个躲不开的困难。

相关资讯

生物版DeepSeek的隐秘竞争,中国模型被视为更强对手,赛诺菲10亿美金押宝!

编辑 | ScienceAI上周,美国斯坦福大学、英伟达等机构联合发布的生物学AI模型Evo2引起广泛关注,被誉为「生物版Deepseek」。 正当全球科研人员为这一突破性成果热议时,该论文中的特殊标注揭开了中国AI的实力——来自中国公司百图生科xTrimo系列大模型,被Evo2的研究人员列为「参数规模更大但尚未开源的竞争对手」,揭示中国生物大模型的崛起。 实际上,百图生科公司一直被美国市场认定为生命科学基础大模型的先行者,自2020年起一直前瞻性地在该领域布局。
3/4/2025 6:22:00 PM
ScienceAI

谷歌旗下带来细胞器动力学的「全息解码器」,启动亚像素级细胞器分析

编辑丨&细胞器经历不断的形态变化和动态相互作用,这是细胞稳态、应激反应和疾病进展的基础。 尽管细胞器的形态与运动十分重要,但由于其复杂的结构,高速的运动模式与目前现有分析技术的局限性,量化细胞器形态仍具有挑战性。 美国旧金山 Calico Life Sciences 的团队推出了一个名为 Nellie 的模型,这是一种自动化且无偏倚的管道,用于分割、跟踪和提取不同细胞内结构的特征。
3/5/2025 12:57:00 PM
ScienceAI

参数仅需12万分之一,训练只需2块GPU,MIT、哈佛推出生物序列建模新方法Lyra

编辑 | 白菜叶卷积神经网络(CNN)和 Transformer 等深度学习架构通过捕捉局部和长距离依赖关系,显著推进了生物序列建模。 然而,它们在生物学环境中的应用受到高计算需求和对大数据集的需求的限制。 麻省理工学院、哈佛大学和卡内基梅隆大学等机构的研究人员提出了 Lyra,这是一种用于序列建模的次二次架构,它基于上位性的生物学框架,用于理解序列与功能之间的关系。
3/27/2025 12:00:00 PM
ScienceAI
  • 1