中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

编辑 | 萝卜皮空间解析转录组学 (SRT) 技术使钻研职员可以或许获得对构造结构和细胞发育的新见解,尤其是在肿瘤中。然而,缺乏对生物背景和多视图特点的计算开发严重阻碍了构造异质性的阐明。在这里,中国科学院的钻研团队提出了 stMVC,这是一种多视图图协作进修模型,它在通过注意力分析 SRT 数据时集成了构造学、基因表白、空间地位和生物学背景。具体来说,采用半监督图注意力自动编码器的 stMVC 分别进修构造学相似性图或空间地位图的特定视图表示,然后在生物上下文的半监督下通过注意力同时整合两个视图图以获得鲁棒表示。st

编辑 | 萝卜皮

空间解析转录组学 (SRT) 技术使钻研职员可以或许获得对构造结构和细胞发育的新见解,尤其是在肿瘤中。然而,缺乏对生物背景和多视图特点的计算开发严重阻碍了构造异质性的阐明。

在这里,中国科学院的钻研团队提出了 stMVC,这是一种多视图图协作进修模型,它在通过注意力分析 SRT 数据时集成了构造学、基因表白、空间地位和生物学背景。

具体来说,采用半监督图注意力自动编码器的 stMVC 分别进修构造学相似性图或空间地位图的特定视图表示,然后在生物上下文的半监督下通过注意力同时整合两个视图图以获得鲁棒表示。stMVC 在检测构造结构、推断轨迹关系和对人类皮层的基准切片去噪方面优于其他工具。特别是,stMVC 可鉴别乳腺癌钻研中与疾病相关的细胞情态及其过渡细胞情态,并通过独立临床数据的功能和生存分析进一步验证。这些结果证明了 SRT 数据的临床和预后应用。

该钻研以「Elucidating tumor heterogeneity from spatially resolved transcriptomics data by multi-view graph collaborative learning」为题,于 2022 年 10 月 10 日发布在《Nature Communications》。

中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

SRT 平台最近的技术创新,包括鉴于测序的技术(例如,10X Genomics Visium 和 Stereo-seq)和鉴于成像的技术(例如,STARmap),允许在构造的空间环境中分析基因表白模式。这些产生的多种类型的概况:构造学、空间地位和基因表白,为细胞构造和发育生物学提供了新的见解,特别是对于肿瘤的进化。然而,用于生物学发现的 SRT 数据分析仍然拥有挑战性,因为它的吞吐量低、灵敏度低、稀疏且嘈杂。

最近,学界已经设计了几种计算方法来分析 SRT 数据。例如,Giotto 使用与单细胞 RNA-seq (scRNA-seq) 类似的处理策略,用于特点选择、降维和无监督聚类。BayesSpace 利用完全贝叶斯统计方法,通过空间邻域结构增强空间测量,进行聚类分析。SpaGCN 采用图卷积网络 (GCN) 方法集成基因表白、空间地位和构造学来鉴别空间域和空间可变基因 (SVG)。stLearn 将构造学特点与空间地位相结合,对基因表白数据进行归一化,然后进行聚类。Squidpy 将组学和图像分析工具结合在一起,以实现对空间转录组学和蛋白质组学数据的可扩展描述。ClusterMap 结合了 RNA 的物理地位和基因身份,从鉴于图像的原位转录组学数据中鉴别出拥有生物学意义的结构。DR-SC 和 SC-MEB 利用潜在隐马尔可夫随机场模型整合了基因表白和空间定位进行空间聚类。STAGATE 结合基因表白和空间信息,通过图注意力自动编码器框架检测空间域。

虽然这些方法有许多有趣的发现,但缺乏可以从构造学中有效和全局提取的视觉特点、有效的多视图信息融合以及构造内的全局地位信息等生物学背景,限制了它们在发育生物学中的解开能力。

另一方面,鉴于 GCN 的模型已成为进修 scRNA-seq 数据(即,通过 scGNN)和 SRT 数据(即,由 SpaGCN 提供)表示的强大工具,然而,这些方法通常钻研节点之间拥有单一类型接近度的网络,即单视图网络。尽管 SpaGCN 提出了一种 RGB 颜色空间平均策略,在计算任意两个点之间的相似度之前,将构造切片中的构造学数据转换为与 2D 空间相同的测量空间,然后再计算任意两个点之间的相似度,但该策略在一定程度上丢弃了构造切片中的纹理特点。每个点,即该策略在没有充分利用指定区域内灰度变化的空间分布即纹理特点的情况下,从颜色空间中提取颜色特点。

此外,在 SRT 钻研中,物理上最接近中心点的 \(K\)-最近点不一定与构造学上与该点最相似的点相同,并且多视图数据之间的距离评估指标也不相同,从而产生拥有多个视图的网络。此外,相邻点对确定中心点所属的细胞类型的贡献不相同,这与图注意力网络(GAT)的假设是一致的。更重要的是,分别视图中的信息质量可能分别,因此,最好是一个新颖的模型可以通过 GAT 进修每个视图的表示,同时协同集成多个网络,通过自动训练分别视图的权重来进修鲁棒的表示。

钻研职员推断:

(i)属于同一细胞类型但分布在分别区域并与构造中分别细胞类型相互作用的细胞,可能拥有分别的细胞情态;

(ii) 每个细胞所属的每个细胞类型(或细胞情态)的确定,与其大小、形状和排列(即松紧或松动)有关,因此构造学的纹理数据拥有丰富的信息来表征细胞类型或细胞情态;

(iii) 肿瘤样本免疫荧光染色抗体的颜色可以粗略地标记肿瘤在构造中的地位,产生区域分割,指示与肿瘤发展相关的生物学背景。

鉴于这些想法,钻研职员开发了 stMVC(Spatial Transcriptomics data analysis by Multiple View Collaborative-learning),这是一个整合四层信息的框架,通过鉴于注意力的多视图图协作进修来阐明构造异质性,即构造学、基因表白数据、空间地位(例如,肿瘤地位)和指示生物背景的区域分割。

中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

图示:stMVC 模型概述。(来源:论文)

stMVC 的特点如下:

(i)对于每个点,全局进修有效的视觉特点,同时通过数据增强和对比进修从构造学中去除伪影;

(ii)通过鉴于注意力的协作进修策略训练多视图图的权重,包括通过视觉特点训练构造学相似性图 (HSG) 和通过物理坐标通过空间地位图 (SLG) 来进修每个点的稳健表示 ,在区域分割的半监督下;

(iii)对于人类卵巢子宫内膜腺癌 (OEAD) 和乳腺浸润性导管癌 (IDC) 样本,鉴别竞争方法遗漏的癌症相关细胞情态(即干性、迁移和转移),以及过渡细胞情态 ,这得到其他独立钻研的临床数据的进一步验证,证明了 SRT 数据的潜在临床和预后应用;

(iv)小鼠初级视觉皮层样本,使钻研职员可以或许检测层特异性抑制神经元。

特别是,这种多视图图协作进修方法是一个灵活的框架,不仅可以或许整合来自多源或空间多组学数据的 SRT 数据,还可以或许整合空间表观基因组学或蛋白质组学数据。

中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

图示:stMVC 可以或许检测空间域,可视化分别域之间的关系距离,并对 DLPFC 数据集上的数据进行去噪。(来源:论文)

stMVC 使用的构造结构中的这种肿瘤地位信息可以帮助钻研职员阐明肿瘤内的异质性。与之前通过用户定义的权重整合构造学和空间地位数据的方法分别,例如 SpaGCN 在基因表白平滑中手动调整构造学的权重,stMVC 采用鉴于注意力的策略来自动进修分别视图的权重以实现稳健的表示 。

此外,与 stLearn 使用的 ImageNet 预训练的 ResNet-50 模式相比,该团队通过数据增强和对比进修对构造学图像数据进行训练的ResNet-50模型的特点提取框架确实有助于 stMVC 进修更有效的视觉特点。对两个真实癌症数据集的评估证明了上述 stMVC 的优势,它可以或许检测与分布在分别空间域的细胞干性、迁移和转移相关的细胞情态,为肿瘤异质性提供生物学见解。

特别是,对于乳腺癌数据集,该团队通过鉴别与癌症相关的细胞情态以及竞争方法遗漏的过渡细胞情态,证明了 SRT 数据的潜在临床和预后应用,临床数据进一步验证了这一点。

中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

图示:stMVC 可以或许检测在卵巢癌和乳腺癌的分别空间域中分布的细胞情态。(来源:论文)

通过将 stMVC 与鉴于 SGATE 的三个单视图模型进行比较,钻研职员发现 stMVC 在聚类、轨迹推断和去噪方面拥有更好的性能,这主要归功于多视图图的协同进修。另外,钻研职员观察到鉴于 SGATE 的空间地位图模型比鉴于 SGATE 的构造学相似度图模型表现更好,然而,鉴于 SGATE 的构造学相似性图模型可以或许捕获一些丰富的边界信息,作为鉴于 SGATE 的空间地位图模型的补充。因此,钻研职员认为,与单视图图相比,通过多视图图对 SRT 数据建模的角度可以或许更好地理解构造异质性。

中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

图示:stMVC 可以或许从乳腺癌样本中的浸润癌区域鉴别肿瘤相关细胞情态及其过渡细胞情态。(来源:论文)

此外,通过与鉴于均值的策略 stMVC-M 进行比较,钻研职员注意到 stMVC 实现了更好且拥有可比性的性能。具体来说,(i)关于没有丰富纹理信息的构造学,例如 DLPFC 和卵巢癌样本,stMVC-M 更容易受到来自构造学视觉特点的噪声信号的影响,而 stMVC 更容易通过自动进修多个图中每个图的权重来捕获更精细的结构;(ii) 对于拥有丰富构造解剖结构的构造学,如乳腺癌样本,两种模型拥有相似的结果。因此,该团队还在 stMVC 模型中实现了鉴于均值的策略作为用户选择的选项。

到目前为止,开发用于整合来自多个样本的 SRT 数据的模型面临着几个挑战,例如来自多个来源的基因表白数据的批量效应,以及它们的稀疏性和噪声;构建来自分别物理度量空间的点之间的关联;并在创建多个样本之间的关系时去除构造学的伪影。然而,该团队认为(i)通过数据增强和对比进修的视觉特点提取模型为构建分别样本之间的点关联提供了解决方案;(ii) 多视图图协作进修模型可以通过结合多层轮廓数据提供一个新的视角来集成多个 SRT 数据集。

此外,stMVC 可以轻松扩展以处理空间分辨染色质可及性 (ATAC-seq) 或蛋白质组学数据,方法是将基因表白数据中的特点矩阵替换为 ATAC-seq 或蛋白质组学数据中的特点矩阵。另外,随着空间多组学技术的进步,stMVC 可以通过添加更多由分别组学数据创建的图或用多组学数据融合的特点矩阵替换单组学数据的特点矩阵来轻松调整以适应。

与 STAGATE 等单视图 GAT 模型类似,stMVC 可用于分析其他鉴于测序的技术(如 Slide-seq 和 Slide-seqV2)的 SRT 数据。除此之外,通过利用来自 stMVC 的时空信息,钻研职员可以计算空间(动态)网络生物标志物或代谢情态,以准确可靠地量化生物系统并进一步预测其复杂的行为。

中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

图示:stMVC 可以或许鉴别小鼠初级视觉皮层 (V1) 数据集中特定层的兴奋性和抑制性神经元。(来源:论文)

该团队通过从人类 DLPFC 数据集中对点进行二次采样,在模拟数据集上对 stMVC 的运行时间进行了基准测试。钻研职员观察到 stMVC 速度很快,并且需要 38 min 来处理拥有 20 K 个点的 SRT 数据集。特别是,运行时间与输入点的数量近似线性相关,这被认为是 stMVC 处理更大数据集的优势。钻研职员表示,在未来的工作中,他们将进一步提高 stMVC 的可扩展性,例如,通过引入子图采样训练策略。

在 stMVC 中仍然存在一些限制:(i)与 ImageNet 预训练的 ResNet-50 模型的视觉特点提取框架相比,训练 SimCLR 的预处理步骤需要更多的计算资源和时间;(ii) 根据抗体的染色密度手动标注肿瘤地位的区域分割。随着对可泛化分割工具的深度进修框架的探索,该团队将在未来的钻研中进一步钻研创建一个更高效的、拥有更自动化架构的 stMVC 模型。

论文链接:https://www.nature.com/articles/s41467-022-33619-9

原创文章,作者:ScienceAI,如若转载,请注明出处:https://www.iaiol.com/news/zhong-ke-yuan-tu-xie-zuo-jin-xiu-mo-xing-cong-kong-jian-fen/

(0)
上一篇 2022年 10月 13日 下午6:57
下一篇 2022年 10月 16日 下午12:36

相关推荐

  • 阿里 BladeDISC 深度进修编译器正式开源

    作者:朱凯 – 机器进修PAI团队 随着深度进修的不断发展,AI模型结构在快速演化,底层算计硬件技术更是层出不穷,对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将算力发挥出来,还要应对算计框架的持续迭代。深度编译器就成了应对以上课题广受关注的技术方向,让用户仅需专注于上层模型开发,降低手工优化本能的人力开发成本,进一步压榨硬件本能空间。阿里云机器进修PAI开源了业内较早投入实际业务使用的静态shape深度进修编译器 BladeDISC,本文将详解 BladeDISC的设计原理和使用。BladeD

    2022年 3月 30日
  • 海内视频天生爆发前夕,我们组织了一场核心玩家都参与的分享调换会

    近几个月来,视频天生范畴连续公布了新技巧、新模型和新工具,AI 天生的视频效果也得到了肉眼可见的提升和颠覆。很多人认为,人工智能范畴接下来公认的主战场,毋庸置疑是视频天生技巧。图 1:2023 年 AI 视频工具概览  图片来源:https://twitter.com/venturetwins/status/1741147864498397328随着一夜爆火的 Pika 1.0 全面开放、Runway 公布的 Gen-2 开始商业化探索、Meta、Moonvalley 和 Stability AI 等公司

    2024年 1月 8日
  • GitHub代码一键转VS Code:只需+1s

    被微软收购后的 GitHub,正在变得越来越易用,现在又有人把它和「宇宙第一 IDE」VS Code 紧密联系起来了。

    2021年 2月 9日
  • 华夏华文信息学会2020学术年会& “钱伟长华文信息处置科学技术奖”颁奖大会在京召开

    2020年12月27日, 华夏华文信息学会2020学术年会在北京隆重举行,会上颁发了“钱伟长华文信息处置科学技术奖”,华夏华文信息学会“青年创新奖”,以及华夏华文信息学会“优秀博士学位论文奖”。大会邀请了5位国内著名专家做特邀告诉,还邀请了6位国内资深学者进行了主题为“语言智能与信息安全”的专题研讨。来自华夏科协、教育部国家语委领导和华文信息处置范畴的专家学者参加了本次会议,哔哩哔哩平台对大会进行现场直播,线上观看人数超过3000人。华夏华文信息学会2020学术年会在北京隆重举行大会开幕式及领导致辞大会开幕式由华夏

    2020年 12月 29日
  • AI可诠释性及其在蚂蚁保险平安规模的运用简介

    可诠释性有关算法作为蚂蚁集团提出的“可托AI”技术架构的重要组成部分,已大量运用于蚂蚁集团保险平安风控的风险鉴别、欺诈举报审理等场景,取得了一些阶段性的成果。本系列文章,我们将以风控规模详细运用为例,尤其关注规模大师履历和机械进修要领的交互结合,介绍蚂蚁集团特点可诠释、图可诠释、逻辑可诠释等算法方案的探索和落地。大师点评:沈超 西安交通大学教授、网络空间保险平安学院副院长AI可诠释性是可托AI的重要组成部分,已成为野生智能规模的研究热点。可诠释性有助于用户了解系统的决议逻辑并建立信任,从而

    2022年 4月 24日
  • 《几许深度进修》作者授课,2022年GDL100课程上线

    今年的 GDL100 包含通例课程、辅导课和专题研讨课,深入讲解了几许深度进修的基本概念和重要问题。

    2022年 7月 29日
  • Python 3.11正式版来了,比3.10快10-60%,官方:这或许是最好的版本

    想要体验新功能的小伙伴赶紧去试试新版本吧!

    2022年 10月 25日
  • 呆板之心CVPR线下论文分享会干货集锦,同时邀你报名ACL 2021论文分享会

    随着人工智能的火热,AAAI、NeurIPS、CVPR 等顶级学术会议的影响力也愈来越大,每年接收论文、参会人数的数量连创新高。但受疫情影响,近两年国外举办的学术会议都转为了线上,无法满足学者们现场交流的需求。以 CVPR 为例,2019 年,CVPR 注册参会人数高达 9227 人,其中来自国内的参会人数就达到 1044 位。因此,在 2020 年和 2021 年,国内 AI 从业者因疫情限制无法进行有效的学术交流。

    2021年 7月 1日
  • 94岁诺奖得主希格斯去世,曾预言「上帝粒子」的消失

    一名用诗意的语言揭示宇宙秘密的人。一名 94 岁巨大科学家的逝世,引发了人们广泛的哀思。4 月 10 日消息,诺贝尔物理学奖得主、著名物理学家彼得・希格斯(Peter Higgs)于周一去世,享年 94 岁。希格斯因提出希格斯玻色子也被称为「上帝粒子」而闻名。根据爱丁堡大学的一份声明我们得知(彼得・希格斯是该校的光荣退休传授),希格斯经历短暂的生病后,于 4 月 8 日星期一在家中安静的离开。对于老爷子的去世,爱丁堡大黉舍长 Peter Mathieson 沉重的表示:「彼得・希格斯是一名杰出的科学家 &mdash

    2024年 4月 10日
  • 用深度进修解决游览推销员成绩,研究者走到哪一步了?

    最近,针对游览推销员等拉拢优化成绩开发神经网络驱动的求解器引起了学术界的极大兴趣。这篇博文介绍了一个神经拉拢优化步骤,将几个最近提出的模型架构和进修范式统一到一个框架中。透过这一系列步骤,作者分析了深度进修在路由成绩方面的最新进展,并提供了新的方向来启发今后的研究,以创造实际的价值。

    2022年 4月 6日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注