AI在线 AI在线

Project Imaging-X发布:1000+开放医学影像数据集全景式综述

作者丨项目团队编辑丨ScienceAI过去几年,通用领域的基础模型(Foundation Models)在大规模、异质、高质量数据的推动下快速演进。 在医学影像场景中,基础模型同样被寄予厚望:期望以一次预训练,支持多模态(CT/MR/PET/内镜等)、多任务(分割/检测/配准/追踪等)与多解剖部位的统一处理,成为从研究到临床的“通用基础”。 然而,医学影像数据的获取与敏感高度依赖医学专业知识,并受到伦理与隐私的严格约束,现有的公开数据长期呈现“小而散、偏科严重”的格局:与通用视觉领域的数据集相比,目前公开的医学影像数据集的规模普遍较小,通常只有数千张图像,与通用领域的数据集个数级数量相比。
图片

作者丨项目团队

编辑丨ScienceAI

过去几年,通用领域的基础模型(Foundation Models)在大规模、异质、高质量数据的推动下快速演进。在医学影像场景中,基础模型同样被寄予厚望:期望以一次预训练,支持多模态(CT/MR/PET/内镜等)、多任务(分割/检测/配准/追踪等)与多解剖部位的统一处理,成为从研究到临床的“通用基础”。

然而,医学影像数据的获取与敏感高度依赖医学专业知识,并受到伦理与隐私的严格约束,现有的公开数据长期呈现“小而散、偏科严重”的格局:与通用视觉领域的数据集相比,目前公开的医学影像数据集的规模普遍较小,通常只有数千张图像,与通用领域的数据集个数级数量相比。

另外,数据分布也严重不均匀:从类型上看,2D数据占主导,病理、X射线和CT数据比较常见,而PET和内镜数据则相对稀缺;从任务上看,主要集中在分类和分割任务,检测、配准和追踪等任务的数据供给不足;从部位上看,数据大多覆盖脑、肺、肝和乳腺等,心血管和肌肉等部位的相关资源则比较薄弱。

Project Imaging-X由上海人工智能实验室、上海创智学院、剑桥大学、中国科学院大学、上海交通大学、蒙纳士大学、上海科学智能研究院、复旦大学等三个顶尖高校与研究机构联合发起。项目汇聚了人工智能、医学影像、数据科学与临床医学等领域的专家学者,构建了跨地域、跨学科的协作网络。

为完成相关方法的空白,通过产学研一体化的深度合作,Project Imaging-X系统性梳理了二十年(2000年–2025年)间的1000+开放医学影像数据集,提出了“元数据驱动融合范式(MDFP)”,提出从元数据统一→中心聚合→融合蓝图→索引共享的流程,并结合交互式数据发现与自动化融合门户,为社区提供可搜索、可复用、可扩展的公共资源与路线图,推动医学基础模型更大规模、更高质量、更合规地发展。

  • 论文标题:Imaging-X 项目:一项针对 1000 多个开放获取医学成像数据集的调查,用于基础模型开发

  • 论文链接:https://github.com/uni-medical/Project-Imaging-X/blob/main/project-imaging-x_dataset-survey.pdf

  • Github链接:https://github.com/uni-medical/Project-Imaging-X

图片

医学基础模型的“数据缺口时刻”:规模与原来的错位

过去几年,AI在通用领域欢呼“曲线陡升”的爆炸时刻:GPT-4训练使用了约13万亿代币,CLIP在4亿图像-文本对上预训练,SAM在11亿掩码训练上。然而,在医学影像中,一条曲线却明显“掉速”——数据采集依赖专业设备与临床,强调需要专家关注,还必须考虑伦理与隐私合规,导致可明显、可的大规模统一语料长期稀缺。

项目研究团队对2000-2025年医学影像数据的全景分析显示,虽然数据集数量持续增长,但与通用AI领域存在巨大差距。最大的医学数据集如AbdomenAtlas仅有150万张图像,而通用视觉模型动训练几乎达到亿图像,差距达数个数量级。

图片

图1:医学基础模型与通用领域基础模型的演进。

错位直接体现在模型侧:训练语料“吃不饱、吃不均”,经常强制集中在少数模态(CT/MR/X射线)、任务(分割/分类)与解剖该部位(脑、胸腹等热点)上,难以形成“多态×多任务×多解剖”的一体化能力版图。

因此,团队提出将“规模差距”界面作为通才型医学基础模型的第一约束:不是单一数据集的不足,而是结构性的数据生态失衡——生长在发生,但增得不均、增得不齐。

图片

图2:2000年至2025年发布的医学影像数据集中病例数的概览。(a)总影像数;以及按不同(b)维度、(c)模态、(d)任务和(e)前五大器官划分的影像数。

数据分配图谱:长尾效应与碎片化特征

图片

图3:医学影像数据集概览:按解剖区域划分的典型模态(左图),数据集在不同模态、器官和任务上的分布(右上),以及数据集数量的时间趋势(右下)。

对2000-2025年期间超过1000个公开医学影像数据集进行了全景式分析,采用了包含数据团队推理模态、分析任务和解剖部位的“四维框架”进行系统性量化。分析结果显示,这些数据集在规模、增长趋势及分布上表现出显着的不均衡性和长尾效应。

  • 数据维度:2D 图像在绝对数量上质疑倒性优势,尤其是在 2023 年后迅猛。这得益于其存储共享的便捷性、通过病理全切片图像(WSI)切片技术能够极大扩大样本规模,以及现有主流基准测试多聚焦于 2D 任务。相比之下,3D 与视频数据因骤增、存储和明显复杂,规模和已知均显着滞后。

  • 成像模式态:病理图像数据集的数量远超其他类型,这源于网络像素级的WSI可被分割成海量图块(Patch)进行分析,且其自身的多维度特性也促进了数据。其后是临床普及度高、乳腺癌大的X射线和CT。然而,MRI在软成像组织中效果显着,其数据量仅约10.4%,而PET、乳腺X线摄影和内镜等模态的数据则相对匮乏。

  • 任务类型:分类与分割任务历来主导,与临床诊断流程紧密相关。2023年后,生成任务的关注度与数据量激增。相比之下,面向配准、检测和追踪等任务的数据集则匮乏。

  • 解剖部位:数据分布同样高度集中。脑、肺、乳和新生儿的影像数量遥遥领先,这主要是学术界与临床对脑部疾病(如阿尔茨海默病)以及乳腺癌、肺癌等重大疾病的高度关注。而心肌、肺癌、肢体等其他部位的严重不足。

图片图4:(a)数据维度、(b)模态、(c)任务以及(d)器官/身体部位的分布情况。

2D 数据:规模优势与“任务/器官偏科”

2D数据量级与可获取性远超3D与视频,已成为医学基础模型预训练的主要基础。在模态上,病理与X射线驱动主导,其次是CT、MR以眼底彩照;解剖聚焦于“有成熟预测流程”的部分(如先进、乳腺、脑),而子结构与不常见部位明显稀缺;任务侧以分类/分割为主,配准、跟踪、重建等供给不足,整体呈现显着长尾与不均衡格局。

二维数据的丰富性也带来了显着的碎片化与异质性问题。首先,数据来源的多样性(如来自不同的数据库、机构和竞赛),导致其推理协议、分辨率和元数据标准不一,带来了严重的域偏移问题。其次,数据标签的质量也参差不齐,从粗略的弱标签到精确的像素级真值差异巨大,且具有统一的标签体系(本体)。

另外,数据在模态、解剖局部和任务类型上的分布严重失衡,这会增强预训练模型中的偏见。最后,二维图像天生缺少三维空间上下文,这也限制了模型对复杂形态结构的理解与分析能力。

图片

图5:二维数据集中不同(a)模态、(b)解剖结构和(c)任务的分布。

3D数据:信息密度高,标准化是胜负手

3D 医学影像( 如CT、MR、PET)为临床决策提供了关键的三维空间信息。然而,由于采集、存储、标注及算力成本高昂,其整体数据规模和增长速度均落后于 2D 影像。

同时,3D 数据也存在着严重的分布不均衡问题:在模态上,CT 和 MRI 占据主导地位,而 PET、超声等数据相对不足;在解剖部位上,数据高度集中于脑部与腹部,心血管、肌骨等领域的资源则相对薄弱;在任务类型上,研究长期由分割任务主导,配准、重建等任务的数据集明显短缺。

3D 影像的“高信息密度”也伴随着“高成本”与“高异质性”的挑战。一方面,高成本与高难度体现在:单张影像体积大、信噪比较低,使得微小病灶的检测变得困难;昂贵的硬件、较长的扫描时间以及对患者配合度的高要求,共同限制了数据采集的规模;体素级的精细标注需要专家进行逐个切片的精细描画,耗时耗力。

另一方面,高异质性源于:不同设备和扫描协议会导致体素间距、图像方向、强度标定及序列参数存在差异。如果没有经过高保真的预处理和元数据对齐,直接进行跨库联合训练很容易导致模型性能下降或结果失真。

图片

图 6:三维数据集中不同 (a) 模态、(b) 解剖结构和 (c) 任务的分布。

视频数据:通往“流程级智能”的钥匙

医学视频数据因其承载了丰富的时序信息和操作语义,是实现手术、内镜分析等“流程级智能”的关键。然而,目前公开的数据集以内镜视频为主,且高度集中于腹部(特别是胆囊、结肠)和眼科等领域,而超声心动图(cine)、显微手术视频以及用于医学教育的 RGB 视频等则相对稀缺。尽管 EndoVis 等学术社区的基准数据集在一定程度上推动了该领域的标准化和技术发展,但目前仍普遍缺乏跨模态的覆盖范围和统一的评测标准。

当前,医学视频数据的发展主要受限于三大瓶颈:昂贵的标注成本、严格的隐私安全限制以及设备的技术异质性。 首先,无论是像素级还是帧级的精细标注,都需要投入巨大的专家资源,并且对操作步骤的定义和标注一致性有着极高的要求。

其次,医疗视频天然包含患者的敏感信息。特别是在内镜和手术场景中,独特的解蒙结构本身就可能被用于患者的“反向识别”,这极大地限制了数据集的开放规模与共享范围。最后,来源于不同记录系统和摄像镜头的视频,在光照条件、画面抖动和拍摄视角上存在显著差异,导致模型难以在不同来源的数据集之间进行有效的泛化。

图片

图 7:视频数据集中不同 (a) 模态、(b) 解剖结构和 (c) 任务的分布。

元数据驱动融合范式(MDFP):从碎片化到统一化

通过上述分析,可以清楚地看到医学影像数据在 2D、3D 和视频三个维度上都存在显著的碎片化和不均衡问题。为解决这些挑战,团队提出了元数据驱动融合范式(MDFP),提供了一种高效、可扩展、以元数据为中心的策略,用于系统化发现、审计和组合多个数据集。

MDFP 的核心创新主要在于在元数据而非原始像素上操作,这带来了多重优势:减少处理开销和隐私风险,提高可重现性和可审计性,并支持快速的目标导向数据集组装。通过这种元数据驱动的方法,团队能够在不直接处理敏感医学图像的情况下,实现大规模数据集的智能整合。

图片图 8:数据集收集、处理、融合和总结系统的流程图。MDFP四阶段系统化流程:

阶段 1:元数据统一化 - 通过强制执行严格定义的元数据模式解决语义异质性,基于权威医学术语(如 UMLS 和 MeSH)进行半自动化处理。具体包括:标准化主要模态(映射到 CT、MR、PET、US、X-ray 等枚举集)、规范化数据维度(解析为 2D、3D 或视频)、建立基于标准医学本体的多级分类系统、分配质量等级(基于机构来源、文献计量影响、成像分辨率和注释粒度)、量化数据集影响(基于引用频率、基准采用和下游重用)。

阶段 2:语义对齐 - 通过将抽象机器学习任务映射到其具体临床意义来缓解不一致性,系统审查数据集文档、源出版物和官方指南。这包括定义下游任务(将 ML 任务标准化并明确映射到临床应用)、指定次要成像模态(捕获每个主要模态下的细粒度协议级区别)、指示标签可用性(标注是否提供真实注释)、记录特殊考虑事项(捕获数据集特定的细微差别、假设或已知限制)。

阶段 3:融合蓝图 - 利用统一元数据设计战略性数据集集成计划,基于主要和次要成像模态、临床任务和解剖覆盖进行聚类。定量评估包括数据量(评估可用图像总数,以及明确的训练、验证和测试分割)、有效图像计数(确定有多少图像具有可靠和验证的注释)、存储估计(评估实际存储需求)、解剖和任务多样性(量化每个融合集群内的解剖广度和任务多样性)。

阶段 4:数据集索引和社区共享 - 将统一元数据转换为结构化、公开可访问的数据集索引,支持社区规模的发现和重用。这包括数据集名称(用于标准化引用的规范名称)、发布日期(官方发布或发布时间戳)、主页 URL(直接访问数据集文档或托管平台的链接)、许可证(明确定义的使用权限)。

图片

图 9:团队所提出的元数据驱动融合范式(MDFP)的详细流程。

交互式发现门户与案例研究:

团队构建了轻量级交互式发现门户“医学数据集浏览器”,部署为 GitHub Pages 上的单页静态应用程序,完全在客户端执行,并在运行时消费标准化 JSON 工件。门户提供两种互补的数据集过滤模式:基于规则的过滤(实现MDFP)和直接分面搜索,支持实时可视化摘要和统计导出。

作为 MDFP 有效性的证明,团队展示了一个具体案例:构建一个针对模态{CT, MR, Fundus}和任务{分类、分割、检测、回归}的 2D 模型。通过 MDFP 组合,研究获得了 57 个数据集和 2,135,301 张可用图像,跨三个模态,标签可用性接近完整。CT 和 MR 在体积上占主导地位(合计约 185 万张图像),提供了来自多个组织的实质性解剖和采集多样性,而 Fundus 贡献了最多的数据集数量。

MDFP 的成功实施为医学基础模型的发展奠定了坚实基础。然而,要真正实现医学 AI 的变革性突破,还需要深入思考当前数据生态的根本性挑战和未来发展方向。

讨论:从数据碎片化到智能体生态的演进路径

任务定义局限性与数据工程范式的演进

当前开放访问医学影像数据集在任务定义方面普遍存在局限性,这与早期深度学习实践的任务导向性质密切相关。随着 LLM 和基础模型的进步,数据收集原则正逐渐从单一任务导向转向更全面的科学数据工程范式。现有数据集大多针对单一目标(如分割、分类或检测),对多任务或跨任务学习场景考虑甚少,这种单一性限制了 AI 模型开发和泛化。这种范式转变需要数据工程的根本性变革。传统任务特定的注释协议必须演变为灵活的框架,能够适应新兴用例和新型 AI 架构。从任务导向到基础导向的数据工程转变需要重新思考注释策略、元数据结构以及质量保证流程。

多模态医学数据集稀缺性与发展约束

多模态医学数据结合成像模态(如CT、MRI、2D 和 3D)图像)与临床报告、病理学甚至视频,在临床诊断中具有特殊价值,但在公共领域极为罕见。大多数开放访问医学数据集仅限于单模态结构,往往缺乏多模态数据收集和注释的标准化框架。这种稀缺性严重限制了高级研究方向的探索,如跨模态推理和联合表示学习。挑战不仅限于数根据可用性,还主题模态一致性和一致性的基本问题。不同的模态通常在不同的时间和空间刻度上运行——病理切片提供局部细胞细节,而放射学采集器官级别结构,临床记录记录时间疾病进展。这些数据流需要复杂的模态协议和跨模态验证标准,而当前数据集很少提供这些。

医学基础模型的挑战与机遇

医学基础模型需要外部训练的数据规模和多样性,但当前资源仍需开发真正可泛化的系统。基础模型需要跨理论模型、临床专业和患者人群的全面覆盖,才能在医学环境中实现稳健性能。三个相互关联的挑战从根本上否定了医学基础模型的发展:

1.规模挑战:扩展不仅涉及数量,还涉及表达多样性。基础模型必须解决疾病表现、推理协议和人群特征的足够变化,以开发强大的内部表示。当前医学数据集通常捕获临床现实的狭窄切片,遗漏了罕见疾病和非典型表现的长尾分布。

2.许可限制和隐私法规:与通用领域AI不同,医学面临患者隐私要求和机构知识产权政策的双重约束。即使模型能够生成高质量合成数据用于增强,限制性许可也阻止这些增强的医学数据集惠及更广泛的医学研究社区。

3.上下文智能需求:有效的医学AI必须理解紧急协议与常规呼吸的区别,资源约束如何影响诊断路径,以及患者历史如何影响治疗选择。这些能力超越了模式识别,主题工作流集成、临床推理和自适应决策支持。

迈向科学智能体的未来愿景

正如科学大语言模型(Sci-LLMs)正从单纯的“知识模型”向“推理引擎”和“科研伙伴”演进,医学基础模型也正朝着科学智能体的方向发展。未来的医学AI系统将不再针对问题的模型进行被动回答,而是能够被赋予高级目标(如“为某种疾病寻找候选药物”或“制定个性化治疗方案”)后,自主进行任务分层、规划、调用工具、虚拟实验和结果分析的自治系统。实现这一目标的核心在于构建一个闭环的“智能体” -数据”生态系统。在这个系统中,智能体通过与外部工具(数据库、模拟器、甚至自动化实验室)交互来主动获取和生成新的实验数据;这些“AI-ready”的数据反哺数据生态,用于迭代和优化智能体自身,形成一个能够自我进化的良性循环。

总结

Project Imaging-X作为迄今为止最全面的医学影像开源数据集调研,系统整理了2000-2025年间1000+数据集,覆盖2D、3D、视频等不同维度,涉及调研揭示了医学影像数据生态的关键特征:数据规模与通用领域数量级差距,模态和任务存在分配严重失衡,碎片化程度高。

针对这一现状,研究提出了元数据驱动融合范式(MDFP),通过四级系统化流程实现数据集的有效整合,并构建了交互式数据发现。通过具体案例验证,MDFP能够将57个数据集整合为包含213万张图像的统一训练资源,为医学基础模型的大规模预训练提供了可行路径。

正如从“知识模型”向“推理引擎”和“科研伙伴”演进,医学基础模型也将朝着能够进行自主规划临床推理、实验设计和治疗的科学智能体方向发展。通过MDFP的战略数据集整合,结合隐私保护技术与智能体生态的构建,医学AI将有望从数据驱动到智能体驱动的范式跃迁,最终实现AI与临床实践的深度融合。

相关资讯

性能优于o3-mini,DeepMind发布通用医学开源LLM与问答Agent,改善治疗开发

编辑 | 萝卜皮开发一种新的治疗方法风险特别大,过程非常缓慢,而且可能花费数十亿美元。 据统计,90% 的候选药物过不了第一阶段的试验。 在这里,Google DeepMind 团队发布了 TxGemma,这是一组开源模型,旨在通过利用大型语言模型的强大功能来提高治疗开发的效率。
3/28/2025 2:00:00 PM
ScienceAI

Nature丨多国团队开发的综合疾病图谱实现95轮千亿级像素数据分析,揭示肾脏疾病蛋白质空间分布与疾病机制

编辑丨&想象一下,把一整座城市夜景压缩进一张邮票,而你只能点亮四盏路灯——这就是传统免疫荧光的尴尬:一次最多 3–4 种蛋白,像用四支水彩笔描绘北京。 这种处境来自于抗体组合的组成和图像分辨率的限制,它们共同限制了图像分析的范围。 但就在最近,由丹麦奥胡斯大学(Aarhus University)与德国汉堡埃彭多夫医学中心 Center for Molecular Neurobiology Hamburg (ZMNH)等共同带来了一种名为「PathoPlex」的病理导向多路复用框架,它不仅解决了这些问题,还能以前所未有的方式揭示组织内部的蛋白质空间分布。
7/23/2025 12:00:00 PM
ScienceAI

Finer-CAM:让AI像‘找不同’一样精准捕捉细粒度特征!

一眼概览Finer-CAM 是一种改进的类激活映射(CAM)方法,能够精准定位区分视觉上相似类别的细粒度特征,在不增加计算复杂度的情况下,大幅提升可解释性。 核心问题传统的 CAM 方法在细粒度分类任务中往往会高亮整个目标区域,而无法有效区分相似类别之间的细微差异。 这导致模型的可解释性受限,难以识别用于决策的真正判别特征。
3/12/2025 3:00:00 AM
萍哥学AI
  • 1