AAAI 2026 Oral | 拒绝「一刀切」！AdaMCoT：让大模型学会「看题下菜碟」，动态选择最佳思考语言

多语言大模型（MLLM）在面对多语言任务时，往往面临一个选择难题：是用原来的语言直接回答，还是翻译成高资源语言去推理？实际上，不同的语言在模型内部承载着不同的「特长」。比如英语可能逻辑性强，适合科学推理；而中文或印尼语在处理特定文化背景或押韵任务时，可能比英语更具优势。

多语言大模型（MLLM）在面对多语言任务时，往往面临一个选择难题：是用原来的语言直接回答，还是翻译成高资源语言去推理？

实际上，不同的语言在模型内部承载着不同的「特长」。比如英语可能逻辑性强，适合科学推理；而中文或印尼语在处理特定文化背景或押韵任务时，可能比英语更具优势。

如何让模型在面对不同任务时，自动选择一条「最顺手」的推理路径？来自新加坡科技研究局（A*STAR）Nancy F. Chen 和 Ai Ti Aw 带领的研究团队，携手新加坡科技设计大学（SUTD）Roy Ka-Wei Lee 教授团队共同推出了 AdaMCoT（Adaptive Multilingual Chain-of-Thought）框架。AdaMCoT 的核心在于把「用哪种语言思考」本身当成一个可优化的决策变量：通过自适应地在多种语言间路由并组合链式思考，再将推理结果映射回目标语言，从而显著提升跨语言的事实推理准确性与一致性。该工作已被 AAAI 2026 主轨道接收为 Oral 论文。

论文标题： AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought
论文链接： https://arxiv.org/abs/2501.16154
作者单位：新加坡 A*STAR Institute for Infocomm Research（I²R）、新加坡科技设计大学（SUTD）

研究背景与痛点

现有的跨语言推理方法通常存在「路径依赖」：要么不做处理直接推理，容易导致低资源语言的幻觉；要么强制全部转换成英语推理，这在处理需要保留原语言文化韵味或特定语义的任务（如写诗、双关语）时，往往会弄巧成拙。

核心问题在于：没有一种单一的语言适合所有的任务。

为了解决这一问题，研究团队提出了 AdaMCoT 框架。与其强制模型「说英语」，不如赋予模型一种自适应的元认知能力。AdaMCoT 能够根据输入问题的特性（是逻辑题、文化题还是常识题），动态地从候选语言池（Thinking Languages）中「路由」出一条最佳的思维路径。

方法与创新：让模型「换种语言思考」

AdaMCoT 并不是「先翻译再回答」，而是引入了一个自适应路由机制（Adaptive Routing）：模型会根据问题特性，选择是直接用目标语言推理，还是先在英语、中文等「思考语言」中展开链式思考，再回到目标语言给出答案。

1. 双路径推理机制

AdaMCoT 设计了两条主要的推理路径：

跨语言思维链（Cross-Lingual CoT）：对于与提示语言不适配的任务，模型将综合考虑主题一致性、语言知识丰富程度等因素，选取一个合适的 “思考语言”。例如面对使用马来文提问的数学题，模型可以选择英文或者中文作为思考语言，利用这些语言丰富的逻辑和知识储备完成推理步骤，最后将结果整合回目标语言。
直接生成（Direct Generation）：对于模型本身擅长的语言或特定任务（如写诗、押韵），直接在源语言上进行分析且生成答案，避免跨语言带来的语义损耗。

2. 基于奖励的自适应路由

为了让模型「知道」何时该用哪种语言思考，研究团队引入了一个基于奖励的微调机制。利用 GPT-4o 作为奖励模型（Reward Model），从事实正确性、连贯性和指令遵循度等维度对不同推理路径生成的答案进行打分。

在训练阶段，模型只学习那些得高分（分数 ≥ 9）的推理路径。这种「优胜劣汰」的机制使得 AdaMCoT 能够根据问题类型自动切换策略。例如，处理科学问题时可能倾向于用英语思考，而处理具有文化特色的问题时则可能保留原语言。

实验结果：全面超越传统方法

研究团队在 mTruthfulQA、CrossAlpaca-Eval 2.0、Cross-MMLU 和 Cross-LogiQA 等多个多语言基准上评估了 AdaMCoT，涵盖了 LLaMA 3.1 和 Qwen 2.5 等主流开源模型。

1. 事实推理能力显著提升

在 mTruthfulQA 数据集上，LLaMA3.1-8B-AdaMCoT 在 32 种语言中的 31 种上都取得了性能提升。

对于中文，准确率相对原模型提升 9.0%；
对于低资源语言如印度尼西亚语，相对提升高达 12.7%；
在匈牙利语、葡萄牙语和孟加拉语等语言上，更是实现了超过 10% 的绝对提升。

相比之下，传统的 Prompt 工程方法（如 AutoCAP）和翻译对齐方法在低资源语言上往往表现不佳，甚至出现倒退。

2. 跨语言一致性增强

实验表明，AdaMCoT 不仅提高了回答的准确率，还显著增强了跨语言的一致性。这意味着无论用户用哪种语言提问，模型都能调用其内部最一致的知识库来回答，减少了「见人说人话，见鬼说鬼话」的幻觉现象。

在 mTruthfulQA 数据集上的推理路径选择分布。大部分情况下，模型优先选择高资源语言（尤其是英语和中文）作为中间推理语种，从而显著降低错误率；其他语种约占 10%，主要用于提升特殊类别问题的回答准确性。

深度解读：为什么「换语言思考」有效？

为了揭示 AdaMCoT 的生效机理，研究团队利用 Logit Lens 和 UMAP 技术对模型的内部状态进行了可视化分析。

1. Logit Lens：透视模型的思考过程

通过 Logit Lens 分析发现，当模型直接用低资源语言回答复杂问题时，中间层的预测往往充满噪声和幻觉。而当 AdaMCoT 引导模型先用英语「思考」时，模型在早期层级就能锁定正确的事实路径，最终生成的答案更加自信且准确。

2. UMAP：语义空间的对齐

UMAP 可视化显示，AdaMCoT 成功拉近了不同语言在语义空间中的距离。经过微调后，非英语语言的嵌入向量（Embeddings）显著向英语中心靠拢。同时并没有破坏原有的语义结构，而是在保持整体分布的前提下，让多语言在同一空间中更加对齐。这表明 AdaMCoT 促进了多语言知识在语义层面的深层融合，而非简单的表面翻译。

总结

AdaMCoT 提出了一种全新的多语言推理范式：不改变模型参数规模，不依赖海量多语言预训练数据，仅通过「学会如何选择思考语言」，就能显著释放大模型的跨语言潜能。

这项工作不仅为提升低资源语言的 AI 性能提供了低成本的高效方案，也为理解大模型的跨语言对齐机制提供了新的视角。随着 AI 全球化的推进，AdaMCoT 有望成为打破语言隔阂、实现「AI 普惠」的关键技术之一。

AAAI 2026 Oral | 拒绝「一刀切」！AdaMCoT：让大模型学会「看题下菜碟」，动态选择最佳思考语言

相关资讯

AAAI 2026｜教会视频扩散模型「理解科学现象」：从初始帧生成整个物理演化

AAAI 2026 | 教会视频扩散模型「理解科学现象」：从初始帧生成整个物理演化

ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE：探究下游任务中多样化对齐MoE的表征和知识