AI在线 AI在线

多元推理

多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%

近段时间,DeepSeek R1 推理模型引爆了国内外社交媒体,让人们见识到了大语言模型类人的深度思考能力。 虽然 DeepSeek R1、OpenAI o1 和 o3 等推理模型在数学和编程领域取得了重大进展,但在面对一些测试基准时仍然力不从心,比如国际数学奥林匹克竞赛(IMO)组合问题、抽象和推理语料库(ARC)谜题和人类的最后考试(HLE)问题。 以 HLE 为例,主流的推理模型集体翻车,结果显示 DeepSeekR1、o1 的准确率都低于 10%。
3/3/2025 9:04:00 PM
机器之心
  • 1