一种多用途深度进修方法，用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白预计和插补的集成

AI
22年10月31日
编辑

ScienceAI

编辑 | 萝卜皮CITE-seq 是一种单细胞多组学技术，可同时测量单细胞中 RNA 和蛋白质的表白，已广泛应用于生物医学研讨，特别是免疫相关疾病和其他疾病，如流感和 COVID-19。尽管 CITE-seq 激增，但生成此类数据的成本仍然很高。尽管数据集成可以增加信息内容，但这带来了计算挑拨。首先，组合多个数据集容易产生需要解决的批处理效应。其次，很难组合多个 CITE-seq 数据集，因为不同数据会合的蛋白质面板可能仅部分堆叠。整合多个 CITE-seq 和单细胞 RNA 测序 (scRNA-seq) 数据集很

编辑 | 萝卜皮

一种多用途深度进修方法，用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白预计和插补的集成

CITE-seq 是一种单细胞多组学技术，可同时测量单细胞中 RNA 和蛋白质的表白，已广泛应用于生物医学研讨，特别是免疫相关疾病和其他疾病，如流感和 COVID-19。尽管 CITE-seq 激增，但生成此类数据的成本仍然很高。尽管数据集成可以增加信息内容，但这带来了计算挑拨。

首先，组合多个数据集容易产生需要解决的批处理效应。其次，很难组合多个 CITE-seq 数据集，因为不同数据会合的蛋白质面板可能仅部分堆叠。整合多个 CITE-seq 和单细胞 RNA 测序 (scRNA-seq) 数据集很重要，因为这允许利用尽可能多的数据来揭示细胞群的异质性。

为了克服这些挑拨，宾夕法尼亚大学的研讨职员提出了 sciPENN，这是一种多用途的深度进修方法，支持 CITE-seq 和 scRNA-seq 数据集成、scRNA-seq 的蛋白质表白预计、CITE-seq 的蛋白质表白插补、预计的量化和插补不确定性，以及从 CITE-seq 到 scRNA-seq 的细胞类型标签转移。跨越多个数据集的综合评估表明，sciPENN 优于其他当前最先进的方法。

该研讨以「A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation」为题，于 2022 年 10 月 27 日发布在《Nature Machine Intelligence》。

一种多用途深度进修方法，用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白预计和插补的集成

单细胞多组学剖析在生物学研讨中的普及，提高了科学家对细胞异质性和亚群的理解。特别是，通过测序（CITE-seq）协议对转录组和表位进行细胞索引的可用性不断提高，极大地促进了这些进展。CITE-seq 允许同时剖析 RNA 基因表白以及一组细胞表面蛋白。

众所周知，蛋白质比 RNA 丰富得多，并且在功能上直接参与细胞信号传导和细胞间相互作用。CITE-seq 具有发现单模态单细胞 RNA 测序 (scRNA-seq) 遗漏的细胞异质性的潜力。尽管 CITE-seq 多模态表白剖析潜力巨大，但技术困难仍然存在。相对于 scRNA-seq 数据，生成 CITE-seq 数据的成本仍然很高。

一种潜伏的解决方案是进修 RNA 和蛋白质之间的关系，从大型参照数据会合借用信息，然后对 scRNA-seq 数据进行蛋白质预计。Seurat 4 和 totalVI 已被引入来实现此功能，但两者都面临局限性。TotalVI 尤其是 Seurat 4 的计算成本很高。

此外，研讨更复杂的场景，其中蛋白质面板不完全堆叠的多个 CITE-seq 数据集被合并，使研讨职员能够增加细胞数量。但是，Seurat 4 没有这样做的能力。虽然totalVI理论上可以做到，但是这个问题还没有探索过。

一种多用途深度进修方法，用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白预计和插补的集成

图示：sciPENN 概述。（来源：论文）

为了应对这些挑拨，宾夕法尼亚大学的研讨职员开发了 sciPENN（单细胞插补蛋白嵌入神经网络），这是一种深度进修模型，可以预计和预算蛋白质表白，整合多个 CITE-seq 数据集，并量化预计和预算不确定性。

研讨职员通过设计内部网络结构以及 sciPENN 的损失函数和优化策略来实现这一点，以最大限度地提高其蛋白质预计和插补精度。该网络构建为密集、batchnorm、ReLu、dropout 层块的堆栈，可帮助模型逐步进修更精细的潜伏细胞表示。这些设计选择使 sciPENN 在监督蛋白质预计方面表现良好。

一种多用途深度进修方法，用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白预计和插补的集成

图示：使用 Seurat 4 PBMC 数据集作为参照的 MALT 数据会合的蛋白质表白预计。（来源：论文）

在该研讨的三个监督剖析中，与 totalVI 和 Seurat 4 相比，sciPENN 始终将参照 CITE-seq 数据集与潜伏嵌入中的查询数据集集成为最佳。sciPENN 的相关性和 RMSE 指标也始终具有最高的蛋白质预计准确度。这种高蛋白质预计准确性使 sciPENN 能够准确地恢复蛋白质表白模式。

一种多用途深度进修方法，用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白预计和插补的集成

图示：单核细胞数据会合的蛋白质表白预计。（来源：论文）

CITE-seq 剖析的一个挑拨是多个 CITE-seq 数据集的集成。这种整合并非微不足道，因为不同 CITE-seq 数据集的蛋白质面板通常有一些不堆叠，这会阻止简单的连接。为了规避这一点，研讨职员为 sciPENN 引入了一种审查损失函数方案，其中蛋白质损失被掩盖，并且当它从细胞中丢失时不会有助于反向传播。

这允许 sciPENN 从具有部分不堆叠蛋白质面板的多个 CITE-seq 数据会合进修，预算每个组成 CITE-seq 数据集的缺失蛋白质，甚至在从部分堆叠的 CITE-seq 数据集进修后预计外部 scRNA-seq 数据会合的蛋白质表白，这是 totalVI 和 Seurat 4 无法完成的任务。此外，sciPENN 比 totalVI 和 Seurat 4 快一个数量级，这使其成为综合 CITE-seq 和 scRNA-seq 数据剖析的理想工具。

论文链接：https://www.nature.com/articles/s42256-022-00545-w

给TA打赏

共{{data.count}}人

人已打赏

CITE sciPENN seq 数据蛋白质

澜舟科技推出「熊猫小说家」小程序，用 AI 书写你的小说

2022-10-28 17:55:00

反对6kW外放电，最快6.9s破百！吉利首款纯电皮卡起售价17.88万元

2022-11-10 11:50:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

独家对话李岩：宿华、经纬、红点资金支持，第一个「生成式推荐」创业公司｜AI Pioneers
7月18日
TOP2

墙裂推荐！Karpathy大模型培训课LLM101n上线了，非常基础
6月24日
TOP3

baidu李彦宏：开源模型是智商税，闭源模型更强大、推理本钱更低
7月5日
Midjourney 再更新！V6 模型支持外绘拓展与局部重绘了!
1月30日
无需训练，主动扩大的视觉Transformer来了
22年4月10日
Python 3.11正式版来了，比3.10快10-60%，官方：这或许是最好的版本
22年10月25日
教授何恺明在MIT的第一堂课
3月11日
邢波任校长的MBZUAI大学国内招生了，Michael Jordan、Raj Reddy等大佬授课
21年12月10日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部