单细胞生物学根底大型语言模型scGPT革新版来了，在超3300万个细胞上举行预训练

编辑 | 紫罗就在前不久，多伦多大学钻研团队颁布首个单细胞生物学根底大型语言模型：scGPT，其在超 1000 万个细胞上举行预训练。现在，该钻研团队首次尝试对超过 3300 万个细胞举行生成预训练来革新 scGPT。论文的通讯作者、多伦多大学助理教授 Bo Wang 在推特激动发文：「令人兴奋的 scGPT 革新：自 4 月份颁布以来，受到社区的极大关注，我们很高兴地宣布单细胞多组学数据的根底模型 scGPT 的首次重大革新。」革新后的钻研以「scGPT: Towards Building a Foundatio

编辑 | 紫罗

就在前不久，多伦多大学钻研团队颁布首个单细胞生物学根底大型语言模型：scGPT，其在超 1000 万个细胞上举行预训练。

现在，该钻研团队首次尝试对超过 3300 万个细胞举行生成预训练来革新 scGPT。

论文的通讯作者、多伦多大学助理教授 Bo Wang 在推特激动发文：「令人兴奋的 scGPT 革新：自 4 月份颁布以来，受到社区的极大关注，我们很高兴地宣布单细胞多组学数据的根底模型 scGPT 的首次重大革新。」

单细胞生物学根底大型语言模型scGPT革新版来了，在超3300万个细胞上举行预训练

革新后的钻研以「scGPT: Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative AI」为题，于 2023 年 7 月 2 日颁布在 bioRxiv 预印平台上。

单细胞生物学根底大型语言模型scGPT革新版来了，在超3300万个细胞上举行预训练

论文地址：https://biorxiv.org/content/10.1101/2023.04.30.538439

开源代码和模型：https://github.com/bowang-lab/scGPT

详细教程：https://scgpt.readthedocs.io/en/latest/

scGPT 革新的几个亮点

此次革新的亮点包括：

推出第一个针对单细胞多组学数据的 GPT 式根底模型，该模型在超过 3300 万个人类细胞图谱数据上举行了预训练。其通才方法使一种模型能够完成单细胞分析中的多项任意，包括多组学综合分析和扰动预测。使用进修的注意力权重和基因嵌入发现一定于各种条件的基因间相互作用。揭示了随着数据量的增加，模型机能持续增强的 scaling 定律。scGPT model Zoo（参见 github）现在提供多种针对各种实体器官的预训练根底模型和全面的泛癌模型。使用最合适的根底模型开始探索你的数据。

有推特网友评论：「绝对惊人的……好东西！」

单细胞生物学根底大型语言模型scGPT革新版来了，在超3300万个细胞上举行预训练

怎么做到的呢？

在此，钻研职员首次尝试通过对超过 3300 万个细胞举行生成预训练来构建单细胞根底模型 scGPT。钻研职员引入新技术来解决大规模单细胞组学数据预训练的方法和工程挑战。

此次革新的 scGPT 模型是在超过 3300 万个细胞举行生成预训练的，而上一次是「超 1000 万个细胞」。

那是怎么做到的呢？

为了处理大规模数据，钻研职员使用内存数据结构，可以快速访问存储数百个数据集。专门针对非序列组学数据建立了统一的生成预训练工作流程，并调整 Transformer 架构以同时进修细胞和基因表示。此外，还提供具有一定任意目标的通用管道，用于模型微调，旨在促进预训练模型在一系列卑鄙任意中的应用。

此次革新调整了社区反馈并利用了 CELLxGENE 最新颁布的数据。革新的 scGPT 拥有更大的预训练数据和更稳健的模型，并扩展了应用任意的范围。

钻研职员从 CELLxGENE 网站检索了超过 1030 万个人类 PBMC scRNA-seq 样本，用于根底模型预训练。通过对生物体（即智人）、组织（即血液、骨髓）和疾病举行过滤，从 CELLxGENE 中收集了总共 65 个数据集。

单细胞生物学根底大型语言模型scGPT革新版来了，在超3300万个细胞上举行预训练

数据地址：https://cellxgene.cziscience.com/

革新的 scGPT 通过三个关键方面展示了单细胞根底模型的变革潜力。

首先，scGPT 代表了第一个大规模生成根底模型，可实现跨各种卑鄙任意的迁移进修。通过在细胞类别注释、遗传扰动预测、batch 校正和多组学调整方面实现最先进的机能，展示了「普遍预训练，按需微调」作为单细胞组学计算应用的通用解决方案。值得注意的是，scGPT 是唯一可以调整包括 scATAC-seq 数据在内的多个单细胞组学的根底模型。其次，通过比较微调模型和原始预训练模型之间的基因嵌入和注意力权重，scGPT 揭示了针对一定于各种条件（例如细胞类别和扰动状态）的基因-基因相互作用的有价值的生物学见解。第三，我们的观察揭示了一个 scaling 定律：较大的预训练数据量可以产生优异的预训练嵌入，并进一步提高卑鄙任意的机能。这一发现突显了根底模型可以随着钻研界可用测序数据的扩展而不断改进的令人兴奋的前景。

基于这些发现，采用预先训练的根底模型将极大地扩展钻研者对细胞生物学的理解，并为未来的发现奠定坚实的根底。scGPT 模型和工作流程的颁布旨在增强和加速这些领域及其他领域的钻研。

革新版 scGPT：在超 3300 万个细胞上举行预训练

scGPT 作为单细胞领域的第一个根底模型，采用生成预训练方法。核心模型包含具有多头注意力的堆叠 Tansformer 层，可同时生成细胞和基因嵌入。scGPT 包含两个阶段：对大型细胞图集举行初始通用预训练，以及针对一定应用对较小数据集举行后续微调（图 1A-C）。

在预训练阶段，引入了专门设计的注意力掩模和生成训练管道，以自监督的方式训练 scGPT，以共同优化细胞和基因表示。这项创新技术成功解决了基因表达的非序列性质，以适应序列预测的 NLG 框架。

在训练过程中，模型逐渐进修根据细胞状态或基因表达线索生成细胞的基因表达。

在微调阶段，预训练模型可以适应新的数据集和一定任意。钻研职员提供灵活的微调流程，适用于单细胞钻研中的各种重要卑鄙任意。

单细胞生物学根底大型语言模型scGPT革新版来了，在超3300万个细胞上举行预训练

图 1：scGPT 模型概述。（来源：论文）

为了收集多样化和广泛的测序数据以用于 scGPT 的自监督预训练，钻研职员收集了通过 CELLxGENE 集合获得的 3300 万条正常（非疾病）条件下人类细胞的 scRNA-seq 数据（图 1D）。这个全面数据集涵盖了来自 51 个器官/组织和 441 项钻研的多种细胞类别，提供了整个人体细胞异质性的丰富表现。

预训练后，使用 UMAP 可视化技术将 3300 万个数据中 10% 的人类细胞上的 scGPT 细胞嵌入可视化（图 1E）。由此产生的 UMAP 图表现出很好的清晰度，局部区域和簇的细胞类别通过不同的颜色准确表示。鉴于数据集中包含 400 多项钻研，这证明了预训练在减轻技术批次效应方面的卓越能力。

钻研结果表明，scGPT 可以有效地提炼有关基因和细胞的关键生物学见解。通过进一步适应迁移进修，可以优化 scGPT，以以在各种卑鄙任意中实现最先进的机能，包括 multi-batch 调整、多组学调整、细胞类别注释、遗传扰动预测和基因网络推断。

对于未来，钻研职员计划在更大规模、更多样化的数据集上举行预训练。

参考内容：https://twitter.com/BoWang87/status/1676056025072320512

{{userData.name}}已认证

单细胞生物学根底大型语言模型scGPT革新版来了，在超3300万个细胞上举行预训练

学而思网校推出首个鉴于自研大言语模型的AIGC课程

上交大&上海AI lab研发胸部X-ray疾病诊疗根基模型，成果入选Nature子刊

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

{{userData.name}}已认证

学而思网校推出首个鉴于自研大言语模型的AIGC课程

上交大&上海AI lab研发胸部X-ray疾病诊疗根基模型，成果入选Nature子刊

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

字节跳动清华AIR成立联合研究中心 推动大模型产学研合作

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

字节跳动清华AIR成立联合研究中心推动大模型产学研合作