AI在线 AI在线

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

本文作者是香港中文大学博士三年级薛博阳,导师为黄锦辉教授,目前在伦敦大学学院进行访问交流,他的研究方向包括可信大模型,模型不确定性,对话系统等,在 ACL, EMNLP, TASLP 等会议期刊作为第一作者发表多篇论文,并长期在知乎写作大模型、机器学习等专栏文章,个人主页为:? 今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能,引起广泛的热度。 然而在面对一些无法回答或本身无解的问题时,这些模型竟试图去虚构不存在的信息去推理解答,生成了大量的事实错误、无意义思考过程和虚构答案,也被称为模型「幻觉」 问题,如下图(a)所示,造成严重资源浪费且会误导用户,严重损害了模型的可靠性(Reliability)。

本文作者是香港中文大学博士三年级薛博阳,导师为黄锦辉教授,目前在伦敦大学学院进行访问交流,他的研究方向包括可信大模型,模型不确定性,对话系统等,在 ACL, EMNLP, TASLP 等会议期刊作为第一作者发表多篇论文,并长期在知乎写作大模型、机器学习等专栏文章,个人主页为:https://amourwaltz.github.io

研究问题

面对无解问题最强模型也会束手无策?

今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能,引起广泛的热度。然而在面对一些无法回答或本身无解的问题时,这些模型竟试图去虚构不存在的信息去推理解答,生成了大量的事实错误、无意义思考过程和虚构答案,也被称为模型「幻觉」 问题,如下图(a)所示,造成严重资源浪费且会误导用户,严重损害了模型的可靠性(Reliability)。

图片

对于复杂的推理任务,一个可靠的模型应当在思考分析后,对可解问题给出正确答案,对不可解问题则指出无解;如果问题超出模型能力范围无法判断可解性,一个次优的选择就是拒答以避免误导用户,如上图(b)和(c)所示,这样回复才是可靠的,同时也能抑制幻觉发生。

近期由港中文和华为诺亚实验室联合提出的 ReliableMath 基准,旨在探究大模型推理任务的可靠性。该工作文章和数据集均已开源,并持续在 leaderboard 上更新最新模型结果,目前已新增了 Qwen3、豆包、Gemini 等一系列模型的可靠性测试结果,欢迎大家关注补充~

图片

  • 论文题目:ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models
  • 论文作者:Boyang Xue, Qi Zhu, Rui Wang, Sheng Wang, Hongru Wang, Fei Mi, Yasheng Wang, Lifeng Shang, Qun Liu, Kam-Fai Wong
  • 论文地址:https://arxiv.org/pdf/2507.03133
  • GitHub 地址:https://github.com/AmourWaltz/ReliableMath
  • 数据集地址:https://huggingface.co/datasets/BeyondHsueh/ReliableMath
  • Leaderboard 地址:https://huggingface.co/spaces/BeyondHsueh/ReliableMath-Leaderboard

可靠性评估准则

知之为知之,不知为不知,是知也

此前大模型可靠性的研究集中在知识任务上,探究是否知道某个知识,缺乏对更难的推理任务的探索。由于推理问题本身可能无解,并且问题可解性以及模型能否回答都需要经过推理才能得出,增加了研究挑战。

根据前文对推理任务可靠性的定义,本工作提出一套推理任务可靠性的评估准则,如下图所示,将问题分为可解(A)和不可解(U),将模型回复分为成功(S),拒答(R)和失败(F)。成功表示对可解问题匹配到正确答案或对不可解问题指出其无解,这是最好的情况;次优是拒答,即对可解和不可解问题都回复我不知道;其余回复均认为是失败。

图片

分别使用精度(Prec.)和谨慎度(Prud.)来表示成功率和拒答率,评估可靠性时优先看精度,其次看谨慎度。

图片

ReliableMath 数据集

首个高质量数学无解问题集

由于缺乏无解的数学问题,本文提出一个评估数学推理可靠性的数据集 ReliableMath,包含可解和不可解的问题。可解问题从当前开源数学问题集中收集,不可解问题通过对可解问题进行改写构造获得,改写方式有两种:删除必要数学条件或增加与已知条件矛盾的条件,如下图所示。

图片

为了得到高质量的无解问题,本文提出一套完整的无解解问题构造流程,如下图所示,包含三步:1)通过对现有可解问题进行改写使其不可解;2)对改写问题使用模型验证,并过滤掉不合格的问题;3)对过滤数据再次进行人工验证评估问题是否无解,保留确实无解的问题,这样就得到了高质量的无解问题构成 ReliableMath 数据集。

图片

ReliableMath 包含不同难度的数学任务,包括奥赛级的 AIME、AMC、Minerva、及高中级的 MATH。人工标注时,对判断问题无解的难度也进行了标注,对那些很容易判断出无解的,比如几何题缺失图片信息等,难度标为 0,而对于需要经过思考才能判断无解的,难度标为 1,数据统计可参考原文。

实验分析

揭示大模型推理可靠性的缺陷

本文在一系列慢思考和快思考模型上做了实验,并指出以下几条关键发现:

图片

  1. 对模型直接输入无解问题时(standard prompt),模型几乎不具备拒答或指出不可解的能力,可靠性极差;我们发现模型能注意到无解问题本身存在问题,但不敢承认其无解或拒答,反而是会不断地回溯、反思导致生成大量无意义的思考过程,直到截断或虚构一个答案,造成严重浪费和幻觉,损害了可靠性;
  2. 当在提示词中加入允许模型拒答或指出问题无解的指令后(reliable prompt),我们发现在可解问题上的可靠性变化不大,但大部分模型在不可解问题上可靠性有明显提升,尽管仍低于可解问题的可靠性,并且生成序列长度也有明显下降,说明使用 reliable prompt 可以在不损害可解问题性能的前提下,提高不可解问题的可靠性,并减少过度思考。
  3. 对较大的模型,使用 reliable prompt 后慢思考模型的可靠性普遍高于对应快思考模型,如 Deepseek-r1 vs. Deepseek-v3;而对于小模型,使用 reliable prompt 后慢思考模型在不可解问题上的可靠性仍然很差,并没有高于对应的快思考模型,如 Distill-7b vs. Qwen-7b,意味着小模型可靠性有进一步提升空间。
  4. 较简单的数学测试集的可靠性要高于较难的测试集的可靠性。

此外,本文也对 ReliableMath 数据集做了分析,下图(a)分别测试了使用移除必要条件和增加矛盾条件两种改写方式构造的问题的可靠性,结果表明移除条件构造的不可解问题可靠性偏低,这是因为模型倾向于假设缺失条件虚构答案。图(b)分别展示了不同难度的无解问题的可靠性,发现难度为 1 的不可解问题可靠性偏低,即这些问题需要模型经过推理才能发现问题无解,这种情况更难也符合预期,说明大模型与人类在识别问题无解难度的相关性是一致的,尽管人工评估难度存在主观性。

图片

可靠性对齐

如何提高大模型可靠性?

本文最后提出一个提高可靠性的对齐策略,在开源训练集上构造一批无解问题。在较强的模型上蒸馏获得成功回复,然后在小模型上自采样获得拒答回复,最后使用监督学习训练小模型提升可靠性,如下图所示。经过对齐后,小模型的可靠性也得到显著提升。

图片

结语和展望

本文提出首个大模型推理任务的可靠性基准,希望借此抛砖引玉,引出更多对新生代推理模型可靠性的关注和优秀工作,让人们更加信任模型的输出,让 AI 更好地服务于人类~

相关资讯

Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品

一个新框架,让Qwen版o1成绩暴涨:在博士级别的科学问答、数学、代码能力的11项评测中,能力显著提升,拿下10个第一! 这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。 项目团队成员发现,o1和o1类模型在推理过程中表现突出,但却存在“知识不足”的明显缺陷——推理步骤太长/模型知识不足时,推理过程就很容易卡壳,导致推理链中的错误传递。
1/20/2025 9:05:00 AM
量子位

推理模型规划任务成功率从5%到95%,DeepMind遗传算法新研究火了

瞄准推理时扩展(Inference-time scaling),DeepMind新的进化搜索策略火了! 所提出的“Mind Evolution”(思维进化),能够优化大语言模型(LLMs)在规划和推理中的响应。 由于提升显著,Reddit/𝕏一时间出现了大量讨论:由于结合了遗传算法,使用Mind Evolution能让Gemini 1.5 Flash任务成功率从原本的5%左右,一下提升90个百分点。
1/23/2025 4:25:23 PM
量子位

360联合北大震撼发布!5%参数量逼近Deepseek-R1满血性能

2025年2月24日,由360与北京大学联合研发的中等量级推理模型Tiny-R1-32B-Preview正式亮相,仅以5%参数,逼近DeepSeek-R1-671B的性能。 核心突破:小模型,大能量数学领域:以78.1分(AIME 2024评测)逼近原版R1模型(79.8分),远超DeepSeek-R1-Distill-Llama-70B(70.0分);综合性能:在编程(LiveCodeBench 61.6分)、科学(GPQA-Diamond 65.0分)领域全面领先最佳开源70B模型DeepSeek-R1-Distill-Llama-70B;效率跃迁:仅需5%参数量,性能达原版R1的95%以上,推理成本大幅降低。 技术革新:领域专精 模型融合研究团队使用「分治-融合」策略:基于DeepSeek-R1生成海量领域数据,分别训练数学、编程、科学三大垂直模型;通过Arcee团队Mergekit工具智能融合,突破单一模型性能上限,实现多任务均衡优化。
2/25/2025 2:50:16 PM
新智元
  • 1