AI在线 AI在线

无需微调就超越临床医生?埃默里大学系统评估GPT-5医疗决策支持能力:潜力巨大

编辑丨coisini大型语言模型(LLM)已经日益发展成通用系统,无需大量微调即可执行领域特定推理。 本月初,OpenAI 发布了新一代旗舰模型 GPT-5,并表示其能够自己决定何时需要深入思考。 一些研究开始探索 GPT-5 在科学领域的潜力。
图片

编辑丨coisini

大型语言模型(LLM)已经日益发展成通用系统,无需大量微调即可执行领域特定推理。

本月初,OpenAI 发布了新一代旗舰模型 GPT-5,并表示其能够自己决定何时需要深入思考。一些研究开始探索 GPT-5 在科学领域的潜力。

在医疗领域,决策过程往往需要整合异构信息源,包括患者主诉、结构化数据和医学影像等。来自埃默里大学的研究团队将 GPT-5 定位为医疗决策支持领域的通用多模态推理系统,在统一评估框架下系统性地评估了其在文本问答和视觉问答任务中的零样本思维链推理性能。

图片

论文地址:https://arxiv.org/pdf/2508.08224

评估与结果

研究团队在 MedQA、MedXpertQA(文本与多模态)、MMLU 医学子集、USMLE 自我评估以及 VQA-RAD 的标准数据集上对 GPT-5、GPT-5-mini、GPT-5-nano 和 GPT-4o-2024-11-20 进行了基准测试。

文本问答

在 MedQA 基准测试中,GPT-5 的准确率达到 95.84%,较 GPT-4o 绝对提升 4.80%,表明 GPT-5 在临床问题情境中具有更强的事实召回与诊断推理能力。

更显著的提升出现在 MedXpertQA 文本子集,GPT-5 的推理准确率较 GPT-4o 提高 26.33%,理解准确率提升 25.30%,表明 GPT-5 在多步推理和医学叙述理解方面取得了实质性增强。

图片

USMLE 自我评估

在美国医师执照考试 (USMLE) 自我评估中,GPT-5 在三个考试阶段均超越所有基线模型,其中在 Step 2(临床决策与管理)阶段优势最为显著(+4.17%)。这一结果与 GPT-5 改进的思维链推理能力高度契合。

图片

三阶段平均得分达到 95.22%(较 GPT-4o 提升 2.88%),远超人类通过考试常规阈值,表明 GPT-5 已具备应对高风险临床推理任务的成熟能力。

视觉问答

在多模态推理任务中,GPT-5 在 MedXpertQA 多模态子集上实现飞跃性突破:推理和理解准确率分别较 GPT-4o 提升 29.26% 和 26.18%,表明其视觉与文本线索的整合能力得到显著增强。

图片

在 MedXpertQA 多模态基准的典型案例中,GPT-5 展现出以临床逻辑整合多模态信息的能力:GPT-5 根据 CT 影像表现、实验室数值及反复呕吐后的关键体征,准确地将食管穿孔列为最可能诊断;随后推荐泛影葡胺吞咽检查作为下一步诊疗措施,同时明确排除其他选项并逐一论证。

图片

这一案例体现出 GPT-5 能够整合视觉证据与复杂叙述语境、保持结构化诊断推理链,最终做出符合专家共识的高风险临床决策。

对比人类专家

如下表所示,研究团队将模型与预执业人类专家进行了对比,GPT-4o 在多数维度上低于人类专家水平,在文本与多模态场景中,推理和理解准确率较人类专家低 5.03%-15.90%;而 GPT-5 不仅弥合了这一差距,还以显著优势超越了人类专家:文本推理(+15.22%)、文本理解(+9.40%)、多模态推理(+24.23%)、多模态理解(+29.40%)。

图片

值得注意的是,GPT-5 在多模态场景中领先优势尤为突出,其表现甚至超越经验丰富的临床医生在限时测试条件下的水平。

总的来说,这项研究凸显出 GPT-5 在真实世界临床决策支持中潜力巨大。不过,需要强调的是,现有基准测试反映的是理想化评估环境,可能无法完全捕捉真实医疗实践的多样性、不确定性及伦理考量。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

相关资讯

多中心医学图像分析模型,VFMGL框架破解数据孤岛难题,93.4% Dice系数的卓越表现

编辑丨&在众多中下游任务中,收到广泛而多样的数据集训练的基础模型表现出的强大性能,在医疗领域表现却不甚得人心。 受到到数据量、异质性和隐私问题等问题的严重阻碍,基础模型得不到更进一步的发展。 桂林航空航天大学联合江门市中心医院等推出了 Vision Foundation Model General Lightweight(VFMGL)框架,以促进各种医疗任务的专家临床模型的去中心化构建。
3/5/2025 5:48:00 PM
ScienceAI

交大O1医疗探索:延长AI思考时间,解锁复杂推理诊断

编辑 | ScienceAI当医生面对复杂病例时,往往需要反复思考、权衡多种可能性,才能得出准确诊断。 以鉴别诊断为例,它要求医生生成可能的诊断列表,并通过评估临床发现,逐步排除不符合条件的选项。 如今,AI 也学会了这种「深思熟虑」的诊断方式。
1/15/2025 3:39:00 PM
ScienceAI

精确捕捉疾病进程中细胞动力学变化,生成式平台UNAGI准确模拟药物扰动

编辑丨ScienceAI复杂疾病就像一场错综复杂的谜局:基因与环境因素在体内交织,导致细胞状态千变万化,也让我们难以看透病程背后的真相,进而影响了新药的研发。 虽然单细胞测序技术能为每个细胞「拍照留念」,现有的分析方式却往往只能看到零散的瞬间,无法还原疾病发展过程中细胞状态的连续变化。 更麻烦的是,现有的计算模型难以从这些数据中自动找出关键的基因调控网络,也无法精准锁定那些加剧病情的「元凶」基因和通路。
7/15/2025 2:17:00 PM
ScienceAI
  • 1