译者 | 刘汪洋
审校 | 重楼
最近,《自然》杂志上的一篇新论文引发了关注。它展示了谷歌如何用 AI 改变医疗的未来:通过自动化技术降低成本、减轻医生负担,使他们能够将更多精力投入到复杂病例的处理中。
当你带着疑难杂症就医时,自然希望得到准确的诊断。然而,即便经验丰富的医生,有时也会对疑难病情感到棘手。有些症状或许并无大碍,但有些则需要深入检查。近年来,人工智能在医疗领域发展迅猛,尤其在模式识别类任务中表现突出。谷歌近期在“AI 医生”研发上取得了重大突破。
AI 在医学领域的应用由来已久。多年来,各类算法(包括基于AI 的算法)持续协助医生和研究人员开展图像分析等工作。近期研究表明,AI 系统,特别是大型语言模型(LLM),能够辅助医生进行诊断,部分研究中其准确率甚至与专业医生相当。不过,谷歌此次的研究有所不同。谷歌研究院推出的新型 LLM,专门采用“症状-诊断”关联数据进行训练。虽然这只是一个开始,未来仍面临诸多挑战,但可以确定的是:一个强大的新型 AI 正在进入医疗诊断领域,我们需要为此做好准备。本文将重点探讨这个新系统的运行原理,同时也会提及它引发的思考——既有谷歌论文中探讨的内容,也有在医生、保险公司、政策制定者等群体中引发热议的话题。
来自谷歌的强大医疗诊断 AI 系统
复杂大语言模型 (LLM,即通过海量数据训练、能够“理解”并生成自然语言文本的 AI系统)的出现,彻底变革了我们处理、分析、提炼和生成信息的方式。尤其是最新的大语言模型,具备了精细化文本推理与对话能力,使其有望成为诊断复杂认知任务的得力助手。实际上,我现在讨论的谷歌这项新研究,只是这个快速发展领域中的又一进展,旨在探索这些先进 AI 工具如何理解临床工作流程并提供助力。
这项研究已通过同行评审,发表于顶尖期刊《自然》,在医学界引发广泛关注。在题为《通过大型语言模型实现精确鉴别诊断》的论文中,谷歌研究院介绍了一款专用 LLM——AMIE(Articulate Medical Intelligence Explorer)。该模型基于临床数据进行训练,旨在辅助医生诊断,甚至未来可能独立完成诊断工作。研究人员让 AMIE 处理数百个真实复杂的疑难病例,测试其生成鉴别诊断(医生专业术语)的能力 。
想看完整技术细节的论文在这里:https://www.nature.com/articles/s41586-025-08869-4
出人意料的结果
这项研究结果令人十分吃惊。当 AMIE 仅依据病例报告的文字描述进行诊断单独运行,其诊断准确率竟显著高于经验丰富的医生(在未借助 AI 辅助的情况下)!AMIE 给出的前 10 个诊断中包含正确诊断的概率接近 60%,而医生独立判断时这一概率仅约 34%。
更值得关注的是,独立运作的 AMIE 表现甚至比有 AMIE 辅助的医生还要略胜一筹!虽然借助 AMIE 辅助的医生比使用谷歌搜索等常规工具时准确率显著提高(超过51%),但在这些疑难病例中,单看准确率指标,AI 仍略胜一筹。
研究中还发现一个惊人之处:在 AMIE 与人类专家的对比实验中,这个 AI 系统仅分析了病例报告中的文字内容。而人类医生面对的是完整的病例报告,不仅包含 AMIE 分析的文字信息,还涵盖图像(如 X 光片、病理切片)和表格(如化验结果)等数据。即便缺乏这些图片、表格信息,AMIE 的表现依然超越了未借助 AI 辅助的医生。这一结果既令人赞叹,也为未来医疗 AI 的发展指明了方向:整合并理解文字、图像、基因组数据、传感器原始数据等多类型数据,将是医疗 AI 实现全面模拟临床评估的关键环节。
AMIE 作为超专业 LLM
那么,像 AMIE 这样的 AI 为何能表现得如此出色,甚至超越部分经验丰富的人类专家呢?
从技术本质来看,AMIE 的底层架构仍基于大语言模型(LLM),与 GPT-4、谷歌 Gemini 等模型具有相似的技术基因。但 AMIE 并非仅仅掌握医学知识的普通聊天机器人,而是为临床诊断推理专门深度优化的专业系统。正如《自然》期刊论文中详细阐述的,其技术优势源于以下几方面的针对性改进:
- 专业化训练数据:在包含海量诊断信息的医学文献数据库中,对基础 LLM 进行定向微调。
- 指令适配训练:通过训练使模型精准理解并执行特定临床指令,例如生成鉴别诊断列表、拆解推理逻辑链条、实现符合医疗场景的交互式沟通。
- 基于人类反馈的强化学习(RLHF):很可能引入临床医生的专业反馈数据,对模型输出进行迭代优化,使其结果更趋精准、安全且贴合临床需求。
- 推理增强技术:采用特定算法强化模型在症状、病史与潜在疾病间建立逻辑关联的能力,这一技术路径与谷歌 Gemini 2.5 Pro 等强大的推理模型具有相似性。
值得注意的是,根据论文数据,AMIE 在自动评估环节优于 GPT-4,证明了其专业领域优化的价值。但遗憾的是,论文未将 AMIE 与其他通用大语言模型(包括谷歌自研的 Gemini 2.5 Pro 等 “智能” 模型)进行横向对比 —— 这一缺失令人费解,甚至让人对论文审稿环节的严谨性产生疑问。
另一个关键特性在于,AMIE 支持交互式诊疗辅助模式。临床医生可通过实时提问深入探究模型的推理依据 —— 这一设计与传统静态诊断系统形成了本质差异。
如何进行诊断效果评估?
衡量诊断的性能和准确性并非易事,这或许会引起有数据科学背景读者的兴趣。在这项研究中,研究人员没有单纯评估 AMIE 的表现。他们采用随机对照的方法,将 AMIE 与三组医生进行对比:第一组是未借助任何辅助工具的医生;第二组是使用标准搜索工具(如谷歌、PubMed 等)的医生;第三组是由 AMIE 辅助的医生(这组医生也能使用搜索工具,但使用频率较低)。
研究人员对数据的分析也没有局限于简单的准确率。他们运用了多项指标,其中最关键的是“前 n 位准确率”(Top-n accuracy),即判断正确诊断是否出现在 AMIE 给出的前 1 个、前 3 个、前 5 个或前 10 个可能性中。此外,还有“质量分数”(用于评估诊断列表与最终诊断的接近程度)、“适当性”和“全面性”——后两个指标由不了解诊断列表来源的独立专科医生进行评分。
这种全面的评估方式,比单纯依靠一个准确率数值更能反映实际情况。通过与医生独立诊断及使用常规工具的情况进行对比,也能更准确地衡量 AI 在实际应用中带来的价值。
为什么 AI 在诊断方面表现如此出色?
与其他专业医疗 AI 一样,AMIE 同样基于海量医学文献、病例研究和临床数据完成训练。这类系统不仅能够处理复杂医学信息、识别潜在规律,更在罕见病检索能力上展现出显著优势 —— 其响应速度与信息覆盖广度远超人类大脑,后者往往需要同时处理多重临床任务。值得注意的是,AMIE 针对医生诊断的逻辑推理过程进行了专项优化,这一特性虽与其他推理模型存在相似性,但其应用场景被高度聚焦于临床诊断领域。
在研究选取的 “诊断难题”(案例均源自权威的《新英格兰医学杂志》)中,AMIE 能够不带人类常见认知偏见地遍历所有可能性,这或许是其核心优势之一。正如社交媒体上针对该论文的评论所指出:AI 不仅在常规病例中表现稳定,更在极具挑战性的复杂病例中展现出突破能力,这无疑是其技术价值的重要体现。
AI 独立诊断 vs. AI + 医生协作
研究中一个值得探讨的现象是:AMIE 独立诊断时的表现略微优于有 AMIE 辅助的医生,这一结果初看令人困惑。从理论而言,将经验丰富的临床判断与 AI 的数据分析能力相结合,本应实现更优诊断效能(既往研究亦证实此点)。事实上,有 AMIE 辅助的医生群体确实显著优于无 AI 辅助的医生,其给出的诊断列表更全面、更精准。但有趣的是,AMIE 独立运行时的表现竟小幅超越其辅助人类的场景。
为何在本次研究中 AI 独立诊断略占优势?部分医学专家在社交媒体分析指出,这一细微差异未必意味着医生对 AI 形成 “拖累”,更可能源于医生对 AI 系统的操作尚不熟练,尚未建立高效的人机协作模式导致的。毕竟,AI 在特定任务的纯数据分析能力上本就具备天然优势,这与人类日常使用大语言模型时未必能实现完美配合的逻辑相似。
这种现象类似于人类刚开始使用大语言模型时的情况:医生可能受到'锚定偏见'的影响,固守原有思维模式,或者还不熟悉如何向 AI 提问来获取关键信息。本质上,这是一种全新的人机协作范式,需要医患双方共同探索磨合。
AI 未来会取代医生吗?
答案显然是否定的。理解 AI 的技术局限性至关重要:
- “诊断难题” 与真实诊疗场景的差异 现有研究基于书面病例报告展开,这类信息经过浓缩与结构化处理,与临床实践中医生通过医患互动获取的原始信息截然不同。真实医疗场景涵盖病史采集、体格检查、非语言信号解读、医患信任建立及全流程治疗管理 —— 这些能力(至少在当前阶段)仍属 AI 的技术盲区。医学的核心不仅是数据处理,更包含人际连接、同理心及不确定性管理,例如安慰剂效应、幻肢痛诊疗等复杂临床现象均难以被算法完全模拟。
- AI 的内在缺陷 大语言模型仍存在 “幻觉” 风险,可能输出看似合理但实际错误的信息。即便 AMIE 未来投入临床应用(目前尚未达到这一阶段),其运行仍需资深专业人员的全程监督。
- 诊断环节的局限性 生成鉴别诊断列表仅是诊疗流程的起点。完整的医疗服务包含病情评估、治疗决策、患者教育、随访管理等多个环节,这些领域不仅超出当前专业 AI 的能力范围,更因涉及人文关怀与动态判断而难以被技术完全替代。
紧随其后:迈向对话式诊断 AI
更值得关注的是,在同一期《自然》杂志中,继 AMIE 论文之后,谷歌研究院同步发表了另一篇论文!该论文表明,在模拟医患诊断对话场景中(而非单纯分析症状,而是完整模拟患者与医生 / AMIE 的真实交互过程),AMIE 的表现再次超越人类医生!换言之,首篇论文证实了 AMIE 在客观诊断层面的优势,而第二篇论文则揭示:该 AI 系统在诊断结果沟通环节(无论是信息传达质量还是共情能力)同样实现突破。
两组数据差异显著:在 159 个模拟病例中,参与评估的专科医生在 32 项指标中的 30 项判定 AI 表现优于初级保健医生;模拟患者群体则在 26 项指标中的 25 项更青睐 AMIE 的沟通方式。
第二篇论文在这里:https://www.nature.com/articles/s41586-025-08866-7
医学界应当重视起来了
尽管存在诸多限制,但这项研究及类似研究都释放出强烈信号:专业 AI 正迅猛发展,其不仅能增强人类专家的能力,在某些特定任务上甚至已超越人类水平。
医学协会、执照管理机构、教育机构、政策制定者、保险公司,以及每一个可能成为 AI 健康诊查对象的人,都需要关注此事。这一问题必须成为政府优先考量的议题。
以 AMIE 及未来类似的 AI 工具为例,它们可协助医生更快速、精准地诊断复杂疾病,进而有望改善患者的治疗效果,尤其在医疗专业资源匮乏的地区。这类工具或许还能帮助医生快速识别和筛选健康或低风险患者,减轻其工作负担,使其能够将精力集中于处理更严重的病例。这一切既可能增加解决复杂健康问题的机会,同时也能降低成本、缩短等待时间。
如同在诸多其他领域一样,AI 迟早会改变医生的角色。未来,AI 或许可承担更多初步诊断的繁重工作,让医生有更多时间与患者沟通互动、开展复杂决策并制定治疗计划 —— 正如一些人所期待的,这或许还能缓解医生因文书工作繁琐、看诊时间紧迫而产生的职业倦怠。正如有人在社交媒体讨论该论文时提及的:并非每个医生都愿意一小时看诊 4 名甚至更多患者,同时还要完成所有文书工作。
为 AMIE 这类系统的潜在应用做好准备,我们需要制定相应规则:如何安全、合乎伦理地将这些工具整合到医疗流程中?如何在确保患者安全的同时避免过度依赖 AI ?若 AI 辅助诊断出现差错,责任该如何界定?目前,这些问题尚未有明确、统一的答案。
医生需要接受培训,学习如何高效使用这些新工具,了解其优势与局限,并适应这种人机协作的新模式。这场变革必须让医学专业人士参与其中,而非将其强加于人。
最后,我们还需思考:如何确保这些强大的工具不会加剧现有的医疗资源分配不均,反而能助力缩小专业知识获取层面的差距?
结论
我们的目标并非取代医生,而是为其赋能。像 AMIE 这样的 AI 系统,作为知识渊博的助手,具备巨大潜力。无论是在日常医疗场景中,还是在特殊环境下(如灾区、疫情期间),甚至在偏远或极端场景中(如远洋轮船、太空飞船或外星基地),均可能发挥重要作用。但要安全有效地释放这种潜力,需要医学界从现在起就以积极、审慎的态度参与到这项飞速发展的技术中来。未来诊断工作很可能采用 AI 辅助模式,因此我们需要及早制定这种合作的规范和准则,因此,我们必须从今天开始为这种合作制定规则。
参考文献
关于 AMIE 的介绍文章:迈向准确的差异化诊断与大型语言模型
关于 AMIE 经测试患者评估的结果文章:迈向会话式诊断人工智能
译者介绍
刘汪洋,51CTO社区编辑,昵称:明明如月,一个拥有 5 年开发经验的某大厂高级 Java 工程师。
原文标题:Google’s New AI System Outperforms Physicians in Complex Diagnoses,作者:Luciano Abriata