AI在线 AI在线

低Token高精度!字节复旦推出自适应推理框架CAR

过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。

过度依赖CoT思维链推理会降低模型性能,有新解了!

来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。

图片

推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。

但已有研究发现,长CoT推理并非总能提升准确率,甚至会削弱模型处理简单任务的能力(可能产生冗长输出)。

为此,研究人员提出了CAR这一基于置信度的自适应推理框架,它首先生成简短回答并评估困惑度,仅在模型置信度低(困惑度高)时触发推理。

在多模态视觉问答、关键信息提取及文本推理等多个基准测试中,CAR超越了单纯的短回答与长推理方法,在准确性与效率之间取得了最佳平衡。

先导实验设置

这项研究聚焦文本密集型视觉问答(VQA)和关键信息抽取(KIE)领域,选取8个具有代表性的公开数据集开展先导实验。

其中,DocVQA、InfoVQA、ChartQA、VisualMRC等4个数据集构成VQA数据集,覆盖文档、图表、信息图等多种视觉文本形态;SROIE、CORD、FUNSD、POIE等4个数据集组成KIE数据集,主要用于票据、表格等结构化信息抽取任务。

以这些数据集为基础,研究对Qwen2.5-0.5B模型进行微调,并在域内(如DocVQA、ChartQA)和域外(如POIE、InfoVQA)数据集上开展性能评估。

评估过程中,要求模型分别生成简短答案和包含长文本推理过程的答案两种输出形式。

实验完成后,系统性统计各数据集的准确率(Accuracy)和回答的困惑度(Perplexity,PPL)——PPL 值越低,表明模型对生成答案的置信度越高。

图片

实验分析结果显示,PPL与准确率之间存在显著的强负相关性

从数据集层面分析,准确率与PPL呈现明显的逆向关系(见图1),即数据集整体准确率越高,其平均PPL值越低;深入数据集内部观察,预测正确样本的平均PPL分数显著低于预测错误样本(见图2)。

基于上述发现,研究创新性提出一种基于PPL的动态推理决策机制。

具体而言,当模型输出的PPL值超过设定阈值(研究以测试集PPL分布的75%分位数作为阈值)时,判定为低置信度场景,触发长文本推理模式,以减少误判风险;若PPL值低于阈值,则判定为高置信度场景,直接输出简短答案,提升推理效率。

实验结果表明,采用该动态决策机制后,模型在绝大多数数据集上的性能均实现显著提升。

以下为PPL取75%分位数为阈值下的性能对比:

图片

提出自适应推理框架CAR

基于上述探索性的发现,这项研究工作拟开发一个使用困惑度(PPL)的动态推理决策框架Certainty-based Adaptive Reasoning(CAR),其目标是能够在推理过程中自适应地在短文本推理和长文本推理之间切换。

如图3(a)所示,研究人员首先使用包含简短答案的示例和包含长文本推理解答的示例来训练大语言模型(LLM)或多模态大语言模型(MLLM)。

随后,借助训练集的困惑度(PPL),估计正确和错误简短答案的PPL分布,这些分布用于决策制定。

具体来说,如果估计的分布确定简短答案是正确的,所提出的方法会直接输出该正确答案。否则,它会执行长文本推理。推理过程如图3(b)所示。

图片

模型训练

研究人员将同时包含简短答案和长文本推理解答标注的训练示例进行混合,构建新的数据集。随后采用标准指令微调流程,模型接收由输入文本和输出文本组成的序列,优化目标为交叉熵损失:

图片

模型训练完成后,对训练集中所有样本进行短答案推理,生成预测答案并计算其困惑度值PPL。

Token序列的困惑度定义为:

图片

高斯分布建模

设二元变量C表示短答案是否正确(C=1为正确,C=0为错误),假设正确与错误答案的PPL分布均服从高斯分布:

图片

概率密度函数分别为:

图片

最后,通过训练数据估计其中参数(假设n1和n0分别为训练集中正确与错误回答的数量):

图片

推理过程

对新输入x,推理步骤如下:

1、短回答推理:模型生成短回答,并计算相应的PPL为PPLnew;

2、概率计算:根据贝叶斯定理,将PPLnew代入概率密度函数,计算后验概率;

图片

其中,先验概率分别为:

图片

3、决策规则:如果短回答的正确概率高于其可能错误的概率,直接输出短回答;否则触发模型的长推理。

实验结果

下表展示了多模态数据集上的性能表现。

首先,CARQwen2VL相比CARShort和CARLong的优越性能,证明了使用困惑度(PPL)作为推理路径选择指标的有效性。

此外,所提出的方法保持了还使用了更少的输出Token数量(平均86.9个token),仅为Qwen2-VLLong所使用Token数量的15%。

图片

下表展示了基于文本的推理任务性能对比。

CAR方法表现出稳健的性能。具体地,使用Qwen2.5-7B模型时平均准确率达81.1%(上图);使用Llama3.1-8B时达74.9%,均优于短答案基线模型以及长文本推理模型(下图)。

此外,CAR的性能均优于TALE和COD等先进的Token缩减方法。

图片图片

小结一下,这项研究提出基于置信度的自适应推理框架(CAR),该框架可根据模型置信度动态切换短回答与长文本推理模式。

通过困惑度(PPL)量化模型对答案的置信度,CAR在高置信度时直接输出短回答以提升效率,低置信度时触发长文本推理以确保准确性。

按照研究团队的说法,CAR打破了“长文本推理必然性能更好”的固有认知,为大模型推理提供了更灵活高效的解决方案,推动大模型推理向智能化、轻量化方向发展。

论文地址:https://arxiv.org/abs/2505.15154

相关资讯

Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品

一个新框架,让Qwen版o1成绩暴涨:在博士级别的科学问答、数学、代码能力的11项评测中,能力显著提升,拿下10个第一! 这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。 项目团队成员发现,o1和o1类模型在推理过程中表现突出,但却存在“知识不足”的明显缺陷——推理步骤太长/模型知识不足时,推理过程就很容易卡壳,导致推理链中的错误传递。
1/20/2025 9:05:00 AM
量子位

推理模型规划任务成功率从5%到95%,DeepMind遗传算法新研究火了

瞄准推理时扩展(Inference-time scaling),DeepMind新的进化搜索策略火了! 所提出的“Mind Evolution”(思维进化),能够优化大语言模型(LLMs)在规划和推理中的响应。 由于提升显著,Reddit/𝕏一时间出现了大量讨论:由于结合了遗传算法,使用Mind Evolution能让Gemini 1.5 Flash任务成功率从原本的5%左右,一下提升90个百分点。
1/23/2025 4:25:23 PM
量子位

360联合北大震撼发布!5%参数量逼近Deepseek-R1满血性能

2025年2月24日,由360与北京大学联合研发的中等量级推理模型Tiny-R1-32B-Preview正式亮相,仅以5%参数,逼近DeepSeek-R1-671B的性能。 核心突破:小模型,大能量数学领域:以78.1分(AIME 2024评测)逼近原版R1模型(79.8分),远超DeepSeek-R1-Distill-Llama-70B(70.0分);综合性能:在编程(LiveCodeBench 61.6分)、科学(GPQA-Diamond 65.0分)领域全面领先最佳开源70B模型DeepSeek-R1-Distill-Llama-70B;效率跃迁:仅需5%参数量,性能达原版R1的95%以上,推理成本大幅降低。 技术革新:领域专精 模型融合研究团队使用「分治-融合」策略:基于DeepSeek-R1生成海量领域数据,分别训练数学、编程、科学三大垂直模型;通过Arcee团队Mergekit工具智能融合,突破单一模型性能上限,实现多任务均衡优化。
2/25/2025 2:50:16 PM
新智元
  • 1