一种多用途深度进修方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白猜测和插补的集成

编辑 | 萝卜皮CITE-seq 是一种单细胞多组学技术,可同时测量单细胞中 RNA 和蛋白质的抒发,已广泛应用于生物医学研讨,特别是免疫相关疾病和其他疾病,如流感和 COVID-19。尽管 CITE-seq 激增,但生成此类数据的成本仍然很高。尽管数据集成可以增加信息内容,但这带来了计算应战。首先,组合多个数据集容易产生需要解决的批处理效应。其次,很难组合多个 CITE-seq 数据集,因为不同数据分散的蛋白质面板可能仅部分堆叠。整合多个 CITE-seq 和单细胞 RNA 测序 (scRNA-seq) 数据集很

编辑 | 萝卜皮

一种多用途深度进修方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白猜测和插补的集成

CITE-seq 是一种单细胞多组学技术,可同时测量单细胞中 RNA 和蛋白质的抒发,已广泛应用于生物医学研讨,特别是免疫相关疾病和其他疾病,如流感和 COVID-19。尽管 CITE-seq 激增,但生成此类数据的成本仍然很高。尽管数据集成可以增加信息内容,但这带来了计算应战。

首先,组合多个数据集容易产生需要解决的批处理效应。其次,很难组合多个 CITE-seq 数据集,因为不同数据分散的蛋白质面板可能仅部分堆叠。整合多个 CITE-seq 和单细胞 RNA 测序 (scRNA-seq) 数据集很重要,因为这允许利用尽可能多的数据来揭示细胞群的异质性。

为了克服这些应战,宾夕法尼亚大学的研讨职员提出了 sciPENN,这是一种多用途的深度进修方法,支持 CITE-seq 和 scRNA-seq 数据集成、scRNA-seq 的蛋白质抒发猜测、CITE-seq 的蛋白质抒发插补、猜测的量化和插补不确定性 ,以及从 CITE-seq 到 scRNA-seq 的细胞类型标签转移。跨越多个数据集的综合评估表明,sciPENN 优于其他当前最先进的方法。

该研讨以「A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation」为题,于 2022 年 10 月 27 日发布在《Nature Machine Intelligence》。

一种多用途深度进修方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白猜测和插补的集成

单细胞多组学阐明在生物学研讨中的普及,提高了科学家对细胞异质性和亚群的理解。特别是,通过测序(CITE-seq)协议对转录组和表位进行细胞索引的可用性不断提高,极大地促进了这些进展。CITE-seq 允许同时阐明 RNA 基因抒发以及一组细胞表面蛋白。

众所周知,蛋白质比 RNA 丰富得多,并且在功能上直接参与细胞信号传导和细胞间相互作用。CITE-seq 具有发现单模态单细胞 RNA 测序 (scRNA-seq) 遗漏的细胞异质性的潜力。尽管 CITE-seq 多模态抒发阐明潜力巨大,但技术困难仍然存在。相对于 scRNA-seq 数据,生成 CITE-seq 数据的成本仍然很高。

一种潜伏的解决方案是进修 RNA 和蛋白质之间的关系,从大型参照数据分散借用信息,然后对 scRNA-seq 数据进行蛋白质猜测。Seurat 4 和 totalVI 已被引入来实现此功能,但两者都面临局限性。TotalVI 尤其是 Seurat 4 的计算成本很高。

此外,研讨更复杂的场景,其中蛋白质面板不完全堆叠的多个 CITE-seq 数据集被合并,使研讨职员能够增加细胞数量。但是,Seurat 4 没有这样做的能力。虽然totalVI理论上可以做到,但是这个问题还没有探索过。

一种多用途深度进修方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白猜测和插补的集成

图示:sciPENN 概述。(来源:论文)

为了应对这些应战,宾夕法尼亚大学的研讨职员开发了 sciPENN(单细胞插补蛋白嵌入神经网络),这是一种深度进修模型,可以猜测和预算蛋白质抒发,整合多个 CITE-seq 数据集,并量化猜测和预算不确定性。

研讨职员通过设计内部网络结构以及 sciPENN 的损失函数和优化策略来实现这一点,以最大限度地提高其蛋白质猜测和插补精度。该网络构建为密集、batchnorm、ReLu、dropout 层块的堆栈,可帮助模型逐步进修更精细的潜伏细胞表示。这些设计选择使 sciPENN 在监督蛋白质猜测方面表现良好。

一种多用途深度进修方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白猜测和插补的集成

图示:使用 Seurat 4 PBMC 数据集作为参照的 MALT 数据分散的蛋白质抒发猜测。(来源:论文)

在该研讨的三个监督阐明中,与 totalVI 和 Seurat 4 相比,sciPENN 始终将参照 CITE-seq 数据集与潜伏嵌入中的查询数据集集成为最佳。sciPENN 的相关性和 RMSE 指标也始终具有最高的蛋白质猜测准确度。这种高蛋白质猜测准确性使 sciPENN 能够准确地恢复蛋白质抒发模式。

一种多用途深度进修方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白猜测和插补的集成

图示:单核细胞数据分散的蛋白质抒发猜测。(来源:论文)

CITE-seq 阐明的一个应战是多个 CITE-seq 数据集的集成。这种整合并非微不足道,因为不同 CITE-seq 数据集的蛋白质面板通常有一些不堆叠,这会阻止简单的连接。为了规避这一点,研讨职员为 sciPENN 引入了一种审查损失函数方案,其中蛋白质损失被掩盖,并且当它从细胞中丢失时不会有助于反向传播。

这允许 sciPENN 从具有部分不堆叠蛋白质面板的多个 CITE-seq 数据分散进修,预算每个组成 CITE-seq 数据集的缺失蛋白质,甚至在从部分堆叠的 CITE-seq 数据集进修后猜测外部 scRNA-seq 数据分散的蛋白质抒发,这是 totalVI 和 Seurat 4 无法完成的任务。此外,sciPENN 比 totalVI 和 Seurat 4 快一个数量级,这使其成为综合 CITE-seq 和 scRNA-seq 数据阐明的理想工具。

论文链接:https://www.nature.com/articles/s42256-022-00545-w

原创文章,作者:ScienceAI,如若转载,请注明出处:https://www.iaiol.com/news/yi-zhong-duo-yong-tu-shen-du-jin-xiu-fang-fa-yong-yu/

(0)
上一篇 2022年 10月 28日 下午5:55
下一篇 2022年 10月 31日 下午10:04

相关推荐

  • 高考结束了,来看下QS最新全全国大学排名,清华北大进前20

    近日,全全国高等教育研究机构 QS(Quacquarelli Symonds)发布了 2022 年 QS 全国大学排名:麻省理工学院连续十年蝉联冠军,国内排名最高的是清华、北大,分别位列 17、18 位。南方科技大学表现亮眼,超越众多 985、211 高校,排名第 275。

    2021年 6月 9日
  • 钢铁之躯,人工大脑,华夏机器人的十年故事

    日本记者高桥风行心中惊叹,口呼神奇。一台亮白色的人形机器人正为他捶背按摩,五指灵活,对位准确。只从手上按摩这一个复杂动作,就能窥出几分造物的精妙来。高桥站起来,看着这个不到自己胸口高的机器人,不仅可以大步行走在人潮汹涌的会场,还和忍不住凑上来的观众厮杀起了华夏象棋。Walker X下象棋这一幕发生在上海的2021全国人工智能大会(WAIC)的现场,会上,全全国顶尖的科技和AI公司纷纷秀出了肌肉,将AI、机器人的宏伟蓝图公之于众。这台代号Walker X的机器人就是本次大会的十大“镇馆之宝”之一。一台机器人,是制造能力

    2021年 7月 27日
  • 还未入职,这位将来的博导为学生规划了一条高效进修之路

    学无止境,但合理规划进修和钻研将助力你提高博士生涯的进修成效。

    2022年 10月 21日
  • 终于可用可拉拢函数变换库!PyTorch 1.11发布,弥补JAX短板,撑持Python 3.10

    PyTorch 1.11、TorchData 和 functorch 现已推出。

    2022年 3月 13日
  • 京东云发布618十大手艺,意在带动行业的新一轮变革

    6月15日,以“解码京东618:京东云发布十大手艺使用趋向”为主题的媒体沙龙在京东举办,这也是京东团体统合云、零卖、物流多方618手艺团队首次全面解密亿级消费洪峰、全供应链最复杂场景背面的手艺图景。活动现场,京东零卖逐层揭开了库存周转31.2天,这一世界级数字背面的奥秘,并由京东物流“接力”分享了如何通过一体化供应链完成全国超200座城市分钟级投递的过程,展示了商品从零卖到物流,最后送至消费者手中的全链路过程。与此同时,作为京东618的手艺基石,京东云全面展现了在面对

    2021年 6月 16日
  • 神经搜集debug太难了,这里有六个实用技巧

    神经搜集的 debug 过程着实不容易,这里是一些有所帮助的 tips。

    2021年 6月 11日
  • 百分点数据科学实验室:产物生命周期料理创新应用落地实践

    编者按产物生命周期料理在数字经济发展过程中是必不可少的,在零售快消行业可用来指导产物的以销定采和精准投放,在IT行业可辅佐软件应用等产物的开发进程料理,同时还也会对环境料理产生影响,对建筑业在节能减排、减轻环境污染层面起到辅佐作用。因此,及时把控产物生命周期进程,用数据智能技术赋能料理至关重要。百分点数据科学实验室鉴于产物生命周期理论在多个行业的落地实践,总结了如何准确把握产物生命周期的四个阶段及辨别方法论。众所周知,一种产物在商场上的销售情况和获利能力并非是一成不变的,因此,任何一家企业的产物不可能永远畅销,但企

    2021年 3月 25日
  • ICML2022奖项公布:15篇杰出论文,复旦、厦大、上交大研讨入选

    ICML2022 共评选出 15 篇杰出论文和一篇时间检验奖论文。

    2022年 7月 21日
  • Nature盘点:从Fortran、arXiv到AlexNet,这些代码改变了迷信界

    从 Fortran 编译器到 arXiv 预印本库、AlexNet,这些算计机代码和平台改变了迷信界。2019 年,「事件视界望远镜」团队拍下了第一张黑洞照片。这张照片并非传统意义上的照片,而是算计得来的——将美国、墨西哥、智利、西班牙和南极多台射电望远镜捕捉到的数据进行数学转换。该团队公开了所用代码,使迷信社区可以看到,并基于此做进一步的探索。而这逐渐成为一种普遍模式。从天文学到动物学,每一个伟大的现代迷信发现背后都有算计机的身影。斯坦福大学算计生物学家、2013 年诺贝尔化学奖获得主 M

    2021年 1月 21日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注