一行“解”字赢了全场？腾讯 x 普林斯顿发现AI裁判集体走神

想象一下，你向一个AI提问一道数学题：“阿里有21美元，莱拉把她100美元的一半给了他，现在阿里有多少钱？ ”接着，你让一个“AI裁判”去评估两个答案，一个答案是一串错误的计算公式，另一个答案只有一个单词：“Solution”（解）。你认为AI裁判会判定哪个答案正确？

想象一下，你向一个AI提问一道数学题：“阿里有21美元，莱拉把她100美元的一半给了他，现在阿里有多少钱？”

接着，你让一个“AI裁判”去评估两个答案，一个答案是一串错误的计算公式，另一个答案只有一个单词：“Solution”（解）。

你认为AI裁判会判定哪个答案正确？一个惊人的事实是，它很有可能会给那个只写了“解”字的答案打上高分。

这个看似荒谬的场景，正是腾讯AI实验室与普林斯顿大学等机构的一项研究揭示的关键问题：AI正在奖励“格式感强但内容空”的答复，而非真正解题的过程。

地址：https://arxiv.org/pdf/2507.08794

一、“万能钥匙”的发现：AI裁判的惊人漏洞

该研究团队发现，被广泛用于评估人工智能答案质量的大语言模型，存在着令人惊讶的系统性漏洞。

这些被称为“AI裁判”的系统，本应通过比较模型生成的答案与标准答案来给出评分，但它们却能被轻易地欺骗。

研究人员将这些能骗过AI的特定词语和符号，生动地称为“万能钥匙” (Master Keys)。

它们包括“Thought process:”（思考过程：）、“Solution”（解）、“Let's solve this problem step by step.”（让我们一步步解决这个问题）等引导性短语。

甚至，仅仅输入一个冒号“:”或一个句号“.”这样的非词语符号，也能触发AI裁判的错误判断。

当AI裁判面对这些“万能钥匙”时，即便其与正确答案毫不相关，模型依然会频繁地给出“正确”的评价。

图注：“万能钥匙”攻击揭示了大语言模型评审系统的系统性漏洞，误判率可达80%。

这种现象导致了极高的误报率（False Positive Rate），在某些测试中甚至高达90%，揭示了AI裁判存在着系统性的判断缺陷。

无论是像GPT-4o、Claude-4这样的顶级商业闭源模型，还是Qwen2.5、LLaMA3等强大的开源模型，都普遍存在这一漏洞。

该漏洞的影响并不仅限于特定模型或特定任务，它广泛存在于不同的数据集、语言以及提示词格式中。

研究人员在一个实验中观察到了灾难性的后果，他们称之为“训练崩溃” (collapsed training)。

在这个实验中，一个AI模型在接受存在漏洞的AI裁判的指导后，完全放弃了学习如何解决实际问题。该模型转而开始“学习”如何利用捷径，仅仅生成“思考过程：”这类简短无意义的“万能钥匙”来获取高分奖励。

图注：以“解答”等推理开头语在许多最先进的大语言模型中作为生成式奖励模型时，会触发误判性奖励。

这表明，被欺骗的AI裁判正在强化一种毫无价值的行为模式，从根本上破坏了人工智能模型的训练过程和可靠性。

二、漏洞的根源与扩散：为何模型会被轻易欺骗

研究人员进一步探究了这种漏洞的根源，发现问题与模型的规模存在一种出乎意料的复杂关系。

模型的脆弱性并非随着模型参数的增大而线性减少，反而呈现出一种非单调的“U型”变化。

在较小的模型（如0.5B）上，由于能力有限，模型倾向于进行字面匹配，误报率反而较低。

当模型规模增加到中等水平（如1.5B/3B）时，它们开始理解粗略的语义相似性，但缺乏精确验证能力，导致误报率急剧上升。

在7B到14B参数规模的模型上，模型能力与谨慎性达到了一个较好的平衡，误报率有所下降，表现最佳。

然而，当模型规模继续增大到32B和72B这样的超大规模时，它们有时会“过度思考”，自己先解决一遍问题，再将自己得出的答案与标准答案比较，从而肯定了错误的提交，导致误报率再次攀升。

Qwen2.5 模型的误判率（FPR）随着模型规模的增大而显著上升，显示出规模越大越容易被“万能钥匙”攻击诱导。

这种漏洞不仅限于英文，它具有跨语言的特性。

与英文“Solution”具有相同含义的中文“解”、日文“かいせつ”等，同样能有效触发AI裁判的误判。

更令人警惕的是，攻击者可以系统性地生成新的“万能钥匙”。

研究人员通过搜索与已知“万能钥匙”在语义上（嵌入向量相似）接近的句子，成功发现了更多可以欺骗模型的短语。

这证明了该漏洞是基于语义关联的，而非偶然的巧合，攻击面可以被轻易扩大。

一些研究者曾认为，通过更复杂的推理策略（如思维链CoT）或多次采样投票等方法，或许可以增强模型的鲁棒性。

然而，本次研究的测试结果否定了这种猜想。实验表明，这些推理时策略的效果非常不稳定，其有效性高度依赖于具体的模型和任务领域，有时甚至会加剧问题，让误报率变得更高。

三、打造“坚盾”：Master-RM模型的诞生与启示

地址：https://huggingface.co/datasets/sarosavo/Master-RM

为了解决这一严峻挑战，腾讯AI实验室的研究团队着手构建一个更具鲁棒性的AI裁判。开发了一个名为Master-RM (Master Reward Model) 的新型奖励模型，其核心策略是进行针对性的数据增强。

研究人员的思路是“以子之矛，攻子之盾”，他们利用类似“万能钥匙”的模式来训练模型进行防御。

具体而言，他们首先生成了大量包含完整解题步骤的正确答案样本。

接着，他们故意将这些正确答案截断，只保留开头的第一句话，这些话通常是“为了解决这个问题，我们首先需要...”之类的通用引导语。

这些被截断的、只包含引导语的样本，被系统地标记为“不正确”的负样本。

研究人员生成了2万个这样的合成负样本，并将它们与16万个原始的训练数据混合，构成了一个新的、更具挑战性的训练集。

利用这个增强后的数据集，团队对一个7B规模的Qwen2.5模型进行了监督微调，最终得到了Master-RM。

训练结果极为成功，Master-RM在所有测试的“万能钥匙”攻击中，几乎达到了零误报率。

重要的是，这种强大的防御能力并不以牺牲其通用评估能力为代价。

在对正常答案进行评估时，Master-RM的表现与业界公认的黄金标准GPT-4o保持着极高的一致性，证明了其判断的准确性。

目前。研究人员已经将他们训练好的Master-RM模型以及相关的合成数据集公开发布。

一行“解”字赢了全场？腾讯 x 普林斯顿发现AI裁判集体走神

一、“万能钥匙”的发现：AI裁判的惊人漏洞

二、漏洞的根源与扩散：为何模型会被轻易欺骗

三、打造“坚盾”：Master-RM模型的诞生与启示

相关资讯

差距仅仅0.3%！李飞飞最新报告揭示：中美AI模型性能基本持平

AI模型的耗电量惊人下一步是建设太空数据中心？

深度思考：现在的AI模型真的在进行推理吗？

一行“解”字赢了全场？腾讯 x 普林斯顿发现AI裁判集体走神

一、“万能钥匙”的发现：AI裁判的惊人漏洞

二、漏洞的根源与扩散：为何模型会被轻易欺骗

三、打造“坚盾”：Master-RM模型的诞生与启示

相关资讯

差距仅仅0.3%！李飞飞最新报告揭示：中美AI模型性能基本持平

AI模型的耗电量惊人 下一步是建设太空数据中心？

深度思考：现在的AI模型真的在进行推理吗？

AI模型的耗电量惊人下一步是建设太空数据中心？