AI在线 AI在线

医疗AI新突破!南洋理工发布首个电子病历处理评测标准

在现代医疗体系中,电子病历(EHR)无疑是核心数据形式,记录了患者从诊断到治疗的各项关键信息。 这些数据不仅为医生提供决策支持,也推动了医疗人工智能的发展。 南洋理工大学的研究团队近期推出了首个全面评测大型语言模型(LLM)处理电子病历能力的基准 ——EHRStruct,标志着医疗 AI 研究的一大步。

在现代医疗体系中,电子病历(EHR)无疑是核心数据形式,记录了患者从诊断到治疗的各项关键信息。这些数据不仅为医生提供决策支持,也推动了医疗人工智能的发展。南洋理工大学的研究团队近期推出了首个全面评测大型语言模型(LLM)处理电子病历能力的基准 ——EHRStruct,标志着医疗 AI 研究的一大步。

EHRStruct 基准涵盖了 11 项核心任务,共计 2200 个样本,任务设计充分考虑了临床场景、认知层级及功能类别,形成了一套严谨的评测框架。研究人员表示,通用大模型在处理结构化电子病历时表现出色,超越了专门针对医学领域设计的模型。同时,他们还发现,数据驱动的任务性能更强,输入格式和微调方法对模型的表现也有显著影响。

在评测中,研究团队对 20 个主流的 LLM 和 11 种增强方法进行了系统性比较,结果显示,结合 EHRMaster 框架和 Gemini 模型后,LLM 在处理结构化 EHR 时的性能显著提升,甚至超越了当前最先进的模型。该研究成果已被 AAAI 2026 会议录用,预计将在未来的学术交流中引发广泛关注。

为了推动这一领域的发展,研究团队还推出了 “EHRStruct 2026 - LLM 结构化电子病历挑战赛”,旨在为研究人员提供一个统一、可比较的评测平台,促进对 LLM 在结构化电子病历处理能力的深入研究。

EHRStruct 的建立过程可分为四个阶段:任务合成、任务体系构建、任务样本抽取和评测流程搭建。由医学专家和计算机科学家共同合作,确保了评测的临床相关性和可重复性。这一评测框架不仅具有科学性和严谨性,也为后续的研究提供了丰富的数据支持。

这一重要研究的发布,不仅为医疗 AI 的进步提供了新的工具和方法,也为今后的临床决策与数据分析提供了更为可靠的支持。我们期待更多的医疗 AI 应用在实际工作中落地,实现更高效的医疗服务。

相关资讯

医疗 AI 迎来大考,南洋理工发布首个 LLM 电子病历处理评测

电子病历(EHR)是医疗体系中最核心的数据形态,集中呈现患者在诊断、检验、用药、生命体征监测与疾病管理过程中的关键临床信息,是临床决策的重要基础。 随着 LLM 逐步应用于医疗场景,如何使其有效理解和处理这些结构化的 EHR,从而辅助医生完成关键的数据分析与临床推理,已成为推动医疗人工智能发展的重要问题。 因此,南洋理工大学的研究人员提出了首个全面评测 LLM 处理结构化电子病历能力的综合基准 EHRStruct,由计算机科学家与医学专家共同构建,并按照临床场景、认知层级与功能类别进行层次化组织,全面的覆盖了 LLM 处理结构化 EHR 的 11 项核心任务,包含 2,200 个标准化样本,为医疗大模型的可控性、可靠性与临床可用性提供统一而严谨的可解释评测框架。
12/15/2025 8:38:27 PM

​讯飞星火医疗大模型 V2. 国际版发布,超越人类医生的实用性!

科大讯飞正式推出了星火医疗大 V2.5国际版,标志着医疗人工智能领域的一次重要突破。 这款模型是业界唯一基于全国产算力训练的医疗大模型,显示出中国在这一领域的领先地位。 根据权威评测平台 MedBench 的最新排名,星火医疗大模型以98.4分的优异成绩位列综合能力榜首,显示出其卓越的性能。
6/25/2025 9:00:44 AM
AI在线

GPT-4V医学执照考试成绩超过大部分医学生,AI加入临床还有多远?

人工智能(AI)在医学影像诊断方面的应用已经有了长足的进步。然而,在未经严格测试的情况下,医生往往难以采信人工智能的诊断结果。对于他们来说,理解人工智能根据医学影像给出的判别,需要增加额外的认知成本。为了增强医生对辅助医疗的人工智能之间的信任,让 AI 通过一个医生必须通过的资格考试或许是一个有效的方法。医学执照考试是用来评估医生专业知识和技能的标准化考试,是衡量一个医生是否有能力安全有效地护理患者的基础。在最新的研究中,来自马萨诸塞大学、复旦大学的跨学科研究人员团队利用生成式多模态预训练模型 GPT-4V (is
11/21/2023 10:49:00 AM
机器之心