AI在线 AI在线

当大模型遇见医学推理:香港理工大学等发布AI医学推理综述,系统梳理需求、方法、数据、挑战与未来方向

作者 | 论文团队编辑 | ScienceAI在临床工作中,医生每天都要面对复杂的推理过程:从病人主诉、化验数据、影像学检查,到诊断、治疗方案和随访决策。 但这些过程不仅繁琐,还充满不确定性。 近年来,大型语言模型(LLMs)在医疗健康领域展现出前所未有的潜力。
图片

作者 | 论文团队

编辑 | ScienceAI

在临床工作中,医生每天都要面对复杂的推理过程:从病人主诉、化验数据、影像学检查,到诊断、治疗方案和随访决策。

但这些过程不仅繁琐,还充满不确定性。能否让人工智能来帮忙?

近年来,大型语言模型(LLMs)在医疗健康领域展现出前所未有的潜力。它们能读懂病历、生成诊断意见,甚至和患者对话。但要真正成为临床的「智慧助手」,LLMs 需要的不仅是语言能力,更是医学推理能力。

最近,一项由香港理工大学的研究者主导完成的综述 ——《Aligning Clinical Needs and AI Capabilities: A Survey on LLMs for Medical Reasoning》,首次系统梳理了医学推理的全景图:需求、方法、数据、挑战与未来方向。

图片

论文链接:https://www.techrxiv.org/users/966100/articles/1334596-aligning-clinical-needs-and-ai-capabilities-a-survey-on-llms-for-medical-reasoning

Github链接(整理的现有的工作,更新中,欢迎补充):https://github.com/pqpq17/Awesome-LLM-Reasoning-on-Medicine

五级医学推理能力框架

图片

该综述基于 Miller’s Pyramid(米勒金字塔),提出了五级医学推理能力分层体系:

  • Level 1:医学知识识别与标准化(Knows)

  • Level 2:信息分类与初步分诊(Knows How)

  • Level 3:因果推理与综合诊断(Shows How)

  • Level 4:临床决策支持与个性化推荐(Shows How / Does)

  • Level 5:动态交互与复杂场景管理(Does)

这个框架清晰描绘了 LLM 从「会认知识」到「能当助手」的进阶路径,对现有benchmark/dataset的做出了清晰的划分。

此外,基于这个五级分类体系以及Reasoning类型的讨论,该综述明确指出一个双视角(即computational & clinical)的对齐框架。

首个标准化五级基准数据集

图片

该综述构建了一个包含 5,000 条标注样本的基准数据集,覆盖五个层次的能力要求,并首次系统评测了 18 个代表性模型。

结果显示:

  • 专科模型 → 在诊断类任务上更突出

  • 通用大模型 → 在决策支持、对话和总结上表现更佳

这为未来的模型选择和任务分工提供了实证依据。

前沿方法全景回顾

图片

该综述全面回顾了医学 LLM 中的主流推理范式:

  • 链式推理(CoT):逐步解释,思路清晰

  • 长链推理(Long-CoT):更深入的逐步分析,包含自我修正

  • 检索增强推理(RAG):结合医学文献和知识库

  • 多模态推理:同时理解病历、影像和文本

  • 智能体推理(Agentic Reasoning):主动规划、调用外部工具、动态决策

同时,也直面四大挑战:

  • 高质量医学数据不足

  • 「幻觉」问题仍然存在

  • 缺乏证据溯源与临床可解释性

  • 模型结果不确定性难以控制

社会意义

这项工作不仅仅是综述,更是一种「对齐」的尝试:

  • 对齐临床需求:明确医生真正需要的推理能力

  • 对齐 AI 能力:梳理当前模型能做什么、还欠缺什么

  • 对齐未来方向:为科研、产业和医疗实践提供参考

研究团队希望这项工作能推动医学大模型真正落地临床,从「实验室里的聪明模型」变成「病房里的可靠助手」。

相关资讯

Science | 西奈山伊坎医学院新AI算法为1600种变异定量「风险」,解析疾病外显率难题

编辑丨&生物实验中,时常会出现这样的情况:同样的实验步骤,同样的顺序,做出来的结果却会各不一样,仿佛是因为某种奇妙的玄学在掌控着概率,为每一位敢于尝试的勇者带来挑战。 在精准医疗的蓝图中,最大的挑战之一也是如此:同样的基因变异,为什么在一个人身上会导致严重疾病,而在另一个人身上却几乎没有表现? 这就是所谓的「外显率」(penetrance)难题,且长期以来,研究者缺乏能在群体规模上系统解析这个难题的工具。
9/9/2025 11:59:00 AM
ScienceAI

交大O1医疗探索:延长AI思考时间,解锁复杂推理诊断

编辑 | ScienceAI当医生面对复杂病例时,往往需要反复思考、权衡多种可能性,才能得出准确诊断。 以鉴别诊断为例,它要求医生生成可能的诊断列表,并通过评估临床发现,逐步排除不符合条件的选项。 如今,AI 也学会了这种「深思熟虑」的诊断方式。
1/15/2025 3:39:00 PM
ScienceAI

多中心医学图像分析模型,VFMGL框架破解数据孤岛难题,93.4% Dice系数的卓越表现

编辑丨&在众多中下游任务中,收到广泛而多样的数据集训练的基础模型表现出的强大性能,在医疗领域表现却不甚得人心。 受到到数据量、异质性和隐私问题等问题的严重阻碍,基础模型得不到更进一步的发展。 桂林航空航天大学联合江门市中心医院等推出了 Vision Foundation Model General Lightweight(VFMGL)框架,以促进各种医疗任务的专家临床模型的去中心化构建。
3/5/2025 5:48:00 PM
ScienceAI
  • 1