斯坦福最新评测：DeepSeek R1医疗AI模型超越Google和OpenAI，赢得高分

作者：AI在线 2025-06-04 11:00

近日，斯坦福大学发布了一项有关临床医疗 AI 模型的全面评测，DeepSeek R1以66% 的胜率和0.75的宏观平均分，在九个前沿大模型中脱颖而出，成为冠军。这一评测的亮点在于，它不仅关注传统医疗执照考试题，更深入到临床医生的日常工作场景，给出了更切实的评估。评测团队构建了一个名为 MedHELM 的综合评估框架，包含35个基准测试，覆盖22个医疗任务子类别。

近日，斯坦福大学发布了一项有关临床医疗 AI 模型的全面评测，DeepSeek R1以66% 的胜率和0.75的宏观平均分，在九个前沿大模型中脱颖而出，成为冠军。这一评测的亮点在于，它不仅关注传统医疗执照考试题，更深入到临床医生的日常工作场景，给出了更切实的评估。

评测团队构建了一个名为 MedHELM 的综合评估框架，包含35个基准测试，覆盖22个医疗任务子类别。这个框架的设计经过了29名来自14个医学专科的执业医生验证，确保了其合理性与实用性。最终，评测结果揭示了 DeepSeek R1的优越性能，紧随其后的是 o3-mini 和 Claude3.7Sonnet。

具体而言，DeepSeek R1在各项基准测试中表现稳健，胜率标准差仅为0.10，表明其在不同测试中的稳定性。而 o3-mini 则在临床决策支持类别的基准测试中表现突出，以64% 的胜率和0.77的最高宏观平均分位居第二。其他模型如 Claude3.5和3.7Sonnet 分别以63% 和64% 的胜率紧随其后。

值得一提的是，此次评测还创新性地采用了大语言模型评审团（LLM-jury）方法进行结果评估，结果显示该方法与临床医生的评分高度一致，证明了其有效性。此外，研究团队还进行了成本效益分析，发现推理模型的使用成本相对较高，而非推理模型成本较低，适合不同需求的用户。

此次评测不仅为医疗 AI 的发展提供了宝贵的数据支持，也为未来的临床实践提供了更多的可能性和灵活性。

腾讯元宝正式接入DeepSeek R1-0528 最新版

腾讯元宝正式宣布接入DeepSeek R1-0528最新版，并在电脑版、网页版同步提供抢先体验，此次模型更新带来了三大显著变化，为用户带来更加优质、高效的AI使用体验。在推理能力上，新模型展现出了更强的实力。无论是处理复杂的代码问题，还是深入分析各类难题，都能够做到快速且准确，为用户提供可靠的解决方案。

5/30/2025 8:00:54 AM AI在线

Artificial Analysis：DeepSeek成为世界前二AGI实验室

模型与 API 独立分析公司 Artificial Analysis 发布了对 DeepSeek R1-0528的最新评估报告，结果显示，DeepSeek R1在技术性能上取得了显著突破，一举超越了 xAI、Meta 和 Anthropic，与谷歌平起平坐，成为全球第二大人工智能实验室。同时，DeepSeek 在开源权重领域也确立了其无可争议的领导地位。根据 Artificial Analysis 的智能指数，DeepSeek R10528版本在对所有顶尖模型进行的七项主流评估中得分从60分跃升至68分。

5/30/2025 9:05:04 AM AI在线

七彩虹推出 “虹光 AI” 助手接入全速版 DeepSeek

七彩虹科技正式宣布，其全新的 “虹光 AI” 智能模型助手已全面接入满血版 DeepSeek R1模型。这一升级使得七彩虹的笔记本产品在性能和推理效率上得到了显著提升。此次更新的 “虹光 AI” 助手，基于当前热门的 Transformer 架构，并采用了 MLA 与 Deep Seek MoE 技术，显著降低了内存占用，减少了缓存需求，从而提升了整体的推理效率。

2/8/2025 5:57:00 PM AI在线

斯坦福最新评测：DeepSeek R1医疗AI模型超越Google和OpenAI，赢得高分

相关资讯

腾讯元宝正式接入DeepSeek R1-0528 最新版

Artificial Analysis：DeepSeek成为世界前二AGI实验室

七彩虹推出 “虹光 AI” 助手接入全速版 DeepSeek