AI在线 AI在线

斯坦福最新评测:DeepSeek R1医疗AI模型超越Google和OpenAI,赢得高分

近日,斯坦福大学发布了一项有关临床医疗 AI 模型的全面评测,DeepSeek R1以66% 的胜率和0.75的宏观平均分,在九个前沿大模型中脱颖而出,成为冠军。 这一评测的亮点在于,它不仅关注传统医疗执照考试题,更深入到临床医生的日常工作场景,给出了更切实的评估。 评测团队构建了一个名为 MedHELM 的综合评估框架,包含35个基准测试,覆盖22个医疗任务子类别。

近日,斯坦福大学发布了一项有关临床医疗 AI 模型的全面评测,DeepSeek R1以66% 的胜率和0.75的宏观平均分,在九个前沿大模型中脱颖而出,成为冠军。这一评测的亮点在于,它不仅关注传统医疗执照考试题,更深入到临床医生的日常工作场景,给出了更切实的评估。

评测团队构建了一个名为 MedHELM 的综合评估框架,包含35个基准测试,覆盖22个医疗任务子类别。这个框架的设计经过了29名来自14个医学专科的执业医生验证,确保了其合理性与实用性。最终,评测结果揭示了 DeepSeek R1的优越性能,紧随其后的是 o3-mini 和 Claude3.7Sonnet。

image.png

具体而言,DeepSeek R1在各项基准测试中表现稳健,胜率标准差仅为0.10,表明其在不同测试中的稳定性。而 o3-mini 则在临床决策支持类别的基准测试中表现突出,以64% 的胜率和0.77的最高宏观平均分位居第二。其他模型如 Claude3.5和3.7Sonnet 分别以63% 和64% 的胜率紧随其后。

image.png

值得一提的是,此次评测还创新性地采用了大语言模型评审团(LLM-jury)方法进行结果评估,结果显示该方法与临床医生的评分高度一致,证明了其有效性。此外,研究团队还进行了成本效益分析,发现推理模型的使用成本相对较高,而非推理模型成本较低,适合不同需求的用户。

此次评测不仅为医疗 AI 的发展提供了宝贵的数据支持,也为未来的临床实践提供了更多的可能性和灵活性。

相关资讯

腾讯元宝正式接入DeepSeek R1-0528 最新版

腾讯元宝正式宣布接入DeepSeek R1-0528最新版,并在电脑版、网页版同步提供抢先体验,此次模型更新带来了三大显著变化,为用户带来更加优质、高效的AI使用体验。 在推理能力上,新模型展现出了更强的实力。 无论是处理复杂的代码问题,还是深入分析各类难题,都能够做到快速且准确,为用户提供可靠的解决方案。
5/30/2025 8:00:54 AM
AI在线

Artificial Analysis:DeepSeek成为世界前二AGI实验室

模型与 API 独立分析公司 Artificial Analysis 发布了对 DeepSeek R1-0528的最新评估报告,结果显示,DeepSeek R1在技术性能上取得了显著突破,一举超越了 xAI、Meta 和 Anthropic,与谷歌平起平坐,成为全球第二大人工智能实验室。 同时,DeepSeek 在开源权重领域也确立了其无可争议的领导地位。 根据 Artificial Analysis 的智能指数,DeepSeek R10528版本在对所有顶尖模型进行的七项主流评估中得分从60分跃升至68分。
5/30/2025 9:05:04 AM
AI在线

Adobe AI代理再扩军:新增产品支持与全球上线数据洞察代理

Adobe持续推进其AI代理生态扩展,正式发布“产品支持代理”,旨在简化Adobe Experience Platform中的故障排除流程,并优化客户体验管理。 同时,Adobe宣布其“数据洞察代理”现已在全球范围内上线。 新发布的“产品支持代理”由Adobe Experience Platform Agent Orchestrator提供技术支持,能够在AI Assistant的对话界面中,为用户提供即时的操作指导和支持案例创建流程。
6/6/2025 11:00:55 AM
AI在线
  • 1