AI在线 AI在线

DeepMind 推出 Crome:提升大型语言模型对人类反馈的对齐能力

在人工智能领域,奖励模型是对齐大型语言模型(LLMs)与人类反馈的关键组成部分,但现有模型面临着 “奖励黑客” 问题。 这些模型往往关注表面的特征,例如回复的长度或格式,而不是识别真正的质量指标,如事实准确性和相关性。 问题的根源在于,标准训练目标无法区分训练数据中存在的虚假关联和真实的因果驱动因素。

在人工智能领域,奖励模型是对齐大型语言模型(LLMs)与人类反馈的关键组成部分,但现有模型面临着 “奖励黑客” 问题。

这些模型往往关注表面的特征,例如回复的长度或格式,而不是识别真正的质量指标,如事实准确性和相关性。问题的根源在于,标准训练目标无法区分训练数据中存在的虚假关联和真实的因果驱动因素。这种失败导致了脆弱的奖励模型(RMs),从而生成不对齐的策略。为了解决这一问题,需要一种利用因果理解来训练 RMs 的新方法,以便对因果质量属性敏感,并对各种虚假线索保持不变。

image.png

现有的奖励模型方法试图解决依赖 Bradley-Terry 或成对排名方法的标准 RLHF 系统中的奖励黑客问题,包括架构修改、策略级调整和涉及集合或一致性检查的数据中心方法。近期的因果启发式方法使用 MMD 正则化针对预先指定的虚假因素,或者通过修正重写估计因果效应。然而,这些方法仅针对预先确定的虚假因素,未能捕捉到未知的关联。尽管增强策略仍然较为粗糙,且以评估为中心的方法未能为奖励模型提供应对多样化虚假变异的强大训练机制。

为了应对这些挑战,谷歌 DeepMind、麦吉尔大学和 MILA - 魁北克人工智能研究所的研究人员提出了 Crome(因果鲁棒奖励建模)。Crome 框架建立在对答案生成的明确因果模型之上,通过添加带有针对性、由大型语言模型生成的反事实示例的偏好数据集,来训练 RMs,从而区分真实的质量驱动因素和表面线索。此外,Crome 创建了两种类型的合成训练对:因果增强(Causal Augmentations)和中性增强(Neutral Augmentations),增强模型的鲁棒性,最大限度提高奖励基准的准确性。

Crome 的操作分为两个主要阶段:基于因果模型生成属性感知的反事实数据,并通过组合数据上的专门损失来训练奖励模型。在评估性能时,研究人员使用了多种基础 LLM,包括 Gemma-2-9B-IT、Qwen2.5-7B 等,取得了显著的性能提升。

Crome 在多个基准上表现优异,尤其在安全性和推理能力方面,取得了明显的进步。此外,它在 WildGuardTest 上也表现良好,降低了对有害提示的攻击成功率,同时保持了对良性提示的相似拒绝率。

未来,Crome 的研究方向将集中在因果数据增强上,推动合成数据生成,为基础模型训练提供新的可能性。

论文:https://arxiv.org/abs/2506.16507

划重点:

🌟 Crome 框架由谷歌 DeepMind 等机构提出,旨在提升奖励模型的鲁棒性。  

📈 Crome 通过因果增强和中性增强策略,显著提高了模型在多项任务中的表现。  

🔒 Crome 在安全性测试中表现优异,降低了攻击成功率,提升了模型的可靠性。

相关资讯

昆仑万维再次开源奖励模型Skywork-Reward-V2

2025年7月4日,昆仑万维乘势而上,继续开源第二代奖励模型Skywork-Reward-V2系列。 此系列共包含8个基于不同基座模型、参数规模从6亿到80亿不等的奖励模型,一经推出便在七大主流奖励模型评测榜单中全面夺魁,成为开源奖励模型领域的焦点。 奖励模型在从人类反馈中强化学习(RLHF)过程中起着关键作用。
7/5/2025 7:46:41 AM
AI在线

只因一个“:”,大模型全军覆没

一个冒号,竟然让大模型集体翻车? 明明应该被拦下来的虚假回答,结果LLM通通开绿灯。 该发现来自一篇名叫“一个token就能欺骗LLM”的论文。
7/15/2025 5:15:31 PM
鹭羽

奖励推理模型(RRM):革新奖励模型的新范式

大家好,我是肆〇柒。 在人工智能领域,大型语言模型(LLM)的出现,如 GPT 系列模型,彻底改变了我们对机器智能的认知。 这些模型通过海量数据预训练,能生成自然、流畅且富有逻辑的文本,广泛应用于聊天机器人、文本生成、自动翻译等场景。
5/30/2025 2:00:00 AM
肆零柒
  • 1