想象一下,你向一个AI提问一道数学题:“阿里有21美元,莱拉把她100美元的一半给了他,现在阿里有多少钱?”
接着,你让一个“AI裁判”去评估两个答案,一个答案是一串错误的计算公式,另一个答案只有一个单词:“Solution”(解)。
你认为AI裁判会判定哪个答案正确?一个惊人的事实是,它很有可能会给那个只写了“解”字的答案打上高分。
这个看似荒谬的场景,正是腾讯AI实验室与普林斯顿大学等机构的一项研究揭示的关键问题:AI正在奖励“格式感强但内容空”的答复,而非真正解题的过程。
地址:https://arxiv.org/pdf/2507.08794
一、“万能钥匙”的发现:AI裁判的惊人漏洞
该研究团队发现,被广泛用于评估人工智能答案质量的大语言模型,存在着令人惊讶的系统性漏洞。
这些被称为“AI裁判”的系统,本应通过比较模型生成的答案与标准答案来给出评分,但它们却能被轻易地欺骗。
研究人员将这些能骗过AI的特定词语和符号,生动地称为“万能钥匙” (Master Keys)。
它们包括“Thought process:”(思考过程:)、“Solution”(解)、“Let's solve this problem step by step.”(让我们一步步解决这个问题)等引导性短语。
甚至,仅仅输入一个冒号“:”或一个句号“.”这样的非词语符号,也能触发AI裁判的错误判断。
当AI裁判面对这些“万能钥匙”时,即便其与正确答案毫不相关,模型依然会频繁地给出“正确”的评价。
图注:“万能钥匙”攻击揭示了大语言模型评审系统的系统性漏洞,误判率可达80%。
这种现象导致了极高的误报率(False Positive Rate),在某些测试中甚至高达90%,揭示了AI裁判存在着系统性的判断缺陷。
无论是像GPT-4o、Claude-4这样的顶级商业闭源模型,还是Qwen2.5、LLaMA3等强大的开源模型,都普遍存在这一漏洞。
该漏洞的影响并不仅限于特定模型或特定任务,它广泛存在于不同的数据集、语言以及提示词格式中。
研究人员在一个实验中观察到了灾难性的后果,他们称之为“训练崩溃” (collapsed training)。
在这个实验中,一个AI模型在接受存在漏洞的AI裁判的指导后,完全放弃了学习如何解决实际问题。该模型转而开始“学习”如何利用捷径,仅仅生成“思考过程:”这类简短无意义的“万能钥匙”来获取高分奖励。
图注:以“解答”等推理开头语在许多最先进的大语言模型中作为生成式奖励模型时,会触发误判性奖励。
这表明,被欺骗的AI裁判正在强化一种毫无价值的行为模式,从根本上破坏了人工智能模型的训练过程和可靠性。
二、漏洞的根源与扩散:为何模型会被轻易欺骗
研究人员进一步探究了这种漏洞的根源,发现问题与模型的规模存在一种出乎意料的复杂关系。
模型的脆弱性并非随着模型参数的增大而线性减少,反而呈现出一种非单调的“U型”变化。
在较小的模型(如0.5B)上,由于能力有限,模型倾向于进行字面匹配,误报率反而较低。
当模型规模增加到中等水平(如1.5B/3B)时,它们开始理解粗略的语义相似性,但缺乏精确验证能力,导致误报率急剧上升。
在7B到14B参数规模的模型上,模型能力与谨慎性达到了一个较好的平衡,误报率有所下降,表现最佳。
然而,当模型规模继续增大到32B和72B这样的超大规模时,它们有时会“过度思考”,自己先解决一遍问题,再将自己得出的答案与标准答案比较,从而肯定了错误的提交,导致误报率再次攀升。
Qwen2.5 模型的误判率(FPR)随着模型规模的增大而显著上升,显示出规模越大越容易被“万能钥匙”攻击诱导。
这种漏洞不仅限于英文,它具有跨语言的特性。
与英文“Solution”具有相同含义的中文“解”、日文“かいせつ”等,同样能有效触发AI裁判的误判。
更令人警惕的是,攻击者可以系统性地生成新的“万能钥匙”。
研究人员通过搜索与已知“万能钥匙”在语义上(嵌入向量相似)接近的句子,成功发现了更多可以欺骗模型的短语。
这证明了该漏洞是基于语义关联的,而非偶然的巧合,攻击面可以被轻易扩大。
一些研究者曾认为,通过更复杂的推理策略(如思维链CoT)或多次采样投票等方法,或许可以增强模型的鲁棒性。
然而,本次研究的测试结果否定了这种猜想。实验表明,这些推理时策略的效果非常不稳定,其有效性高度依赖于具体的模型和任务领域,有时甚至会加剧问题,让误报率变得更高。
三、打造“坚盾”:Master-RM模型的诞生与启示
地址:https://huggingface.co/datasets/sarosavo/Master-RM
为了解决这一严峻挑战,腾讯AI实验室的研究团队着手构建一个更具鲁棒性的AI裁判。开发了一个名为Master-RM (Master Reward Model) 的新型奖励模型,其核心策略是进行针对性的数据增强。
研究人员的思路是“以子之矛,攻子之盾”,他们利用类似“万能钥匙”的模式来训练模型进行防御。
具体而言,他们首先生成了大量包含完整解题步骤的正确答案样本。
接着,他们故意将这些正确答案截断,只保留开头的第一句话,这些话通常是“为了解决这个问题,我们首先需要...”之类的通用引导语。
这些被截断的、只包含引导语的样本,被系统地标记为“不正确”的负样本。
研究人员生成了2万个这样的合成负样本,并将它们与16万个原始的训练数据混合,构成了一个新的、更具挑战性的训练集。
利用这个增强后的数据集,团队对一个7B规模的Qwen2.5模型进行了监督微调,最终得到了Master-RM。
训练结果极为成功,Master-RM在所有测试的“万能钥匙”攻击中,几乎达到了零误报率。
重要的是,这种强大的防御能力并不以牺牲其通用评估能力为代价。
在对正常答案进行评估时,Master-RM的表现与业界公认的黄金标准GPT-4o保持着极高的一致性,证明了其判断的准确性。
目前。研究人员已经将他们训练好的Master-RM模型以及相关的合成数据集公开发布。