AI在线 AI在线

一行“解”字赢了全场?腾讯 x 普林斯顿发现AI裁判集体走神

想象一下,你向一个AI提问一道数学题:“阿里有21美元,莱拉把她100美元的一半给了他,现在阿里有多少钱? ”接着,你让一个“AI裁判”去评估两个答案,一个答案是一串错误的计算公式,另一个答案只有一个单词:“Solution”(解)。 你认为AI裁判会判定哪个答案正确?

想象一下,你向一个AI提问一道数学题:“阿里有21美元,莱拉把她100美元的一半给了他,现在阿里有多少钱?”

接着,你让一个“AI裁判”去评估两个答案,一个答案是一串错误的计算公式,另一个答案只有一个单词:“Solution”(解)。

你认为AI裁判会判定哪个答案正确?一个惊人的事实是,它很有可能会给那个只写了“解”字的答案打上高分。

这个看似荒谬的场景,正是腾讯AI实验室与普林斯顿大学等机构的一项研究揭示的关键问题:AI正在奖励“格式感强但内容空”的答复,而非真正解题的过程。

图片

地址:https://arxiv.org/pdf/2507.08794

一、“万能钥匙”的发现:AI裁判的惊人漏洞

该研究团队发现,被广泛用于评估人工智能答案质量的大语言模型,存在着令人惊讶的系统性漏洞。

这些被称为“AI裁判”的系统,本应通过比较模型生成的答案与标准答案来给出评分,但它们却能被轻易地欺骗。

研究人员将这些能骗过AI的特定词语和符号,生动地称为“万能钥匙” (Master Keys)。

它们包括“Thought process:”(思考过程:)、“Solution”(解)、“Let's solve this problem step by step.”(让我们一步步解决这个问题)等引导性短语。

甚至,仅仅输入一个冒号“:”或一个句号“.”这样的非词语符号,也能触发AI裁判的错误判断。

当AI裁判面对这些“万能钥匙”时,即便其与正确答案毫不相关,模型依然会频繁地给出“正确”的评价。

图片

图注:“万能钥匙”攻击揭示了大语言模型评审系统的系统性漏洞,误判率可达80%。

这种现象导致了极高的误报率(False Positive Rate),在某些测试中甚至高达90%,揭示了AI裁判存在着系统性的判断缺陷。

无论是像GPT-4o、Claude-4这样的顶级商业闭源模型,还是Qwen2.5、LLaMA3等强大的开源模型,都普遍存在这一漏洞。

该漏洞的影响并不仅限于特定模型或特定任务,它广泛存在于不同的数据集、语言以及提示词格式中。

研究人员在一个实验中观察到了灾难性的后果,他们称之为“训练崩溃” (collapsed training)。

在这个实验中,一个AI模型在接受存在漏洞的AI裁判的指导后,完全放弃了学习如何解决实际问题。该模型转而开始“学习”如何利用捷径,仅仅生成“思考过程:”这类简短无意义的“万能钥匙”来获取高分奖励。

图片

图注:以“解答”等推理开头语在许多最先进的大语言模型中作为生成式奖励模型时,会触发误判性奖励。

这表明,被欺骗的AI裁判正在强化一种毫无价值的行为模式,从根本上破坏了人工智能模型的训练过程和可靠性。

二、漏洞的根源与扩散:为何模型会被轻易欺骗

研究人员进一步探究了这种漏洞的根源,发现问题与模型的规模存在一种出乎意料的复杂关系。

模型的脆弱性并非随着模型参数的增大而线性减少,反而呈现出一种非单调的“U型”变化。

在较小的模型(如0.5B)上,由于能力有限,模型倾向于进行字面匹配,误报率反而较低。

当模型规模增加到中等水平(如1.5B/3B)时,它们开始理解粗略的语义相似性,但缺乏精确验证能力,导致误报率急剧上升。

在7B到14B参数规模的模型上,模型能力与谨慎性达到了一个较好的平衡,误报率有所下降,表现最佳。

然而,当模型规模继续增大到32B和72B这样的超大规模时,它们有时会“过度思考”,自己先解决一遍问题,再将自己得出的答案与标准答案比较,从而肯定了错误的提交,导致误报率再次攀升。

图片

Qwen2.5 模型的误判率(FPR)随着模型规模的增大而显著上升,显示出规模越大越容易被“万能钥匙”攻击诱导。

这种漏洞不仅限于英文,它具有跨语言的特性。

与英文“Solution”具有相同含义的中文“解”、日文“かいせつ”等,同样能有效触发AI裁判的误判。

更令人警惕的是,攻击者可以系统性地生成新的“万能钥匙”。

研究人员通过搜索与已知“万能钥匙”在语义上(嵌入向量相似)接近的句子,成功发现了更多可以欺骗模型的短语。

这证明了该漏洞是基于语义关联的,而非偶然的巧合,攻击面可以被轻易扩大。

一些研究者曾认为,通过更复杂的推理策略(如思维链CoT)或多次采样投票等方法,或许可以增强模型的鲁棒性。

然而,本次研究的测试结果否定了这种猜想。实验表明,这些推理时策略的效果非常不稳定,其有效性高度依赖于具体的模型和任务领域,有时甚至会加剧问题,让误报率变得更高。

三、打造“坚盾”:Master-RM模型的诞生与启示

图片

地址:https://huggingface.co/datasets/sarosavo/Master-RM

为了解决这一严峻挑战,腾讯AI实验室的研究团队着手构建一个更具鲁棒性的AI裁判。开发了一个名为Master-RM (Master Reward Model) 的新型奖励模型,其核心策略是进行针对性的数据增强。

研究人员的思路是“以子之矛,攻子之盾”,他们利用类似“万能钥匙”的模式来训练模型进行防御。

具体而言,他们首先生成了大量包含完整解题步骤的正确答案样本。

接着,他们故意将这些正确答案截断,只保留开头的第一句话,这些话通常是“为了解决这个问题,我们首先需要...”之类的通用引导语。

这些被截断的、只包含引导语的样本,被系统地标记为“不正确”的负样本。

研究人员生成了2万个这样的合成负样本,并将它们与16万个原始的训练数据混合,构成了一个新的、更具挑战性的训练集。

利用这个增强后的数据集,团队对一个7B规模的Qwen2.5模型进行了监督微调,最终得到了Master-RM。

训练结果极为成功,Master-RM在所有测试的“万能钥匙”攻击中,几乎达到了零误报率。

重要的是,这种强大的防御能力并不以牺牲其通用评估能力为代价。

在对正常答案进行评估时,Master-RM的表现与业界公认的黄金标准GPT-4o保持着极高的一致性,证明了其判断的准确性。

目前。研究人员已经将他们训练好的Master-RM模型以及相关的合成数据集公开发布。

相关资讯

差距仅仅0.3%!李飞飞最新报告揭示:中美AI模型性能基本持平

你知道吗? 中美顶级AI模型的性能差距已经缩小到惊人的0.3%。 近日,由李飞飞联合领导的斯坦福大学以人为本人工智能研究所(Stanford HAI)发布《2025年人工智能指数报告》,这份长达456页的报告深度剖析了全球AI领域的最新趋势,给出了这一令人瞩目的结论。
4/9/2025 10:53:48 AM
舒云

AI模型的耗电量惊人 下一步是建设太空数据中心?

随着人工智能(AI)技术的飞速发展,地球上的数据中心面临着巨大的电力供给压力。 据美国能源部报告,预计到2028年,美国的数据中心将消耗总发电量的12%,而这一比例在2023年仅为4.4%。 AI模型的耗电量惊人,导致电力公司难以满足不断增长的需求,电费持续上涨。
6/9/2025 9:47:53 AM

深度思考:现在的AI模型真的在进行推理吗?

最近,OpenAI、DeepSeek、谷歌、Anthropic都推出新模型,它们都宣称模型已经具备真正的推理能力,也就是人类解决问题时运用的思维方式,但问题在于:AI大模型所说的推理真的和人一样吗?  现在的模型可以将复杂问题分解成小问题,然后逐步解决小问题再给出回应,业界将这个过程称为“思维链推理”。 这些模型有时表现让人惊叹,可以解决逻辑谜题和数学难题,能够快速写出完美代码,但有时面对极为简单的问题却显得蠢笨。
2/27/2025 10:33:36 AM
小刀
  • 1