AI在线 AI在线

OpenAI 发布并开源医疗测试基准 HealthBench,旨在更好地衡量 AI 系统在医疗健康领域能力

与以往测试集不同的是,HealthBench 的 5000 段核心测试对话,由来自 60 个国家 / 地区的 26 个专业 262 名医生打造,极大增强了该测试集的难度、真实性以及丰富度。

OpenAI 今日宣布推出了一个专门面向医疗大模型的测试评估集 ——HealthBench 并开源,旨在更好地衡量 AI 系统在医疗健康领域能力。

OpenAI 发布并开源医疗测试基准 HealthBench,旨在更好地衡量 AI 系统在医疗健康领域能力

与以往测试集不同的是,HealthBench 的 5000 段核心测试对话,由来自 60 个国家 / 地区的 26 个专业 262 名医生打造,极大增强了该测试集的难度、真实性以及丰富度。

与以前的狭窄基准不同,HealthBench 通过 48562 个独特的医生编写的评分标准进行有意义的开放式评估,涵盖多个健康背景(例如,紧急情况、全球健康)和行为维度(例如,准确性、遵循指示、沟通)。

此外,HealthBench 采用了多轮对话测试,而不是简单的答题或选择题模式。AI在线注意到,测试数据显示大模型在医疗保健领域的表现有了显著提升。例如,从之前的 GPT-3.5Turbo 的 16% 到 GPT-4o 的 32%,再到 o3 的 60%,整体性能有了显著进步。尤其是小型模型的进步更为突出,GPT-4.1nano 不仅在性能上超越了 GPT-4o,而且成本降低了 25 倍。

参考资料:

  • 《HealthBench: Evaluating Large Language ModelsTowards Improved Human Health》

相关资讯

性能依旧领先!OpenAI深夜上线o3满血版和o4 mini

昨天晚上 1 点,OpenAI 的直播如约而至。 其实在预告的时候,几乎已经等于明示了。 没有废话,发布的就是 o3 和 o4-mini。
4/18/2025 1:02:47 AM
数字生命卡兹克

ChatGPT用户数暴涨至7亿创纪录新高,OpenAI年化收入飙升至120亿美元

OpenAI正在经历前所未有的爆炸式增长。 该公司周一宣布,其旗舰产品ChatGPT的周活跃用户数已达到 7 亿,同比增长超过四倍,这一数字标志着AI应用领域的又一个重要里程碑。 用户增长势头强劲,商业化进程全面提速ChatGPT的用户增长呈现出惊人的加速趋势。
8/5/2025 11:19:01 AM
AI在线

奥特曼给ChatGPT空降高管,11亿美元收购独角兽创始人加入OpenAI…好熟悉的剧情

小扎的玩法,奥特曼现在也(部分)学会了。 这不,就在刚刚,OpenAI“致敬”Meta,玩起了打包收购、高管空降、团队重组这一套。 最新消息,OpenAI将以11亿美元全股票收购Statsig,公司原高管一并加入OpenAI,负责ChatGPT、CodeX等重要产品线。
9/4/2025 8:47:06 AM
明敏
  • 1