AI在线 AI在线

ICML 2025 | 作业帮团队提出基于能量的偏好模型(EBM),攻克LLM对齐痛点,性能超越主流方法

在大模型(LLM)通过人类反馈进行对齐(RLHF)的过程中,核心的偏好建模方法Bradley-Terry模型(BTM)存在固有理论缺陷,导致模型训练不稳定、效果受限,甚至引发安全隐患。 来自作业帮教育科技(北京)有限公司的研究团队,在ICML 2025上提出了一种基于能量的新型偏好模型(EBM),名为无限偏好模型(IPM),并基于此设计了实用的能量偏好对齐(EPA)损失函数。 理论分析和大量实验表明,该方法从根本上解决了BTM的缺陷,在多个关键指标上显著超越DPO、IPO、KTO等主流离线对齐方法,为构建更稳定、更可靠、更安全的AI系统提供了新路径。

在大模型(LLM)通过人类反馈进行对齐(RLHF)的过程中,核心的偏好建模方法Bradley-Terry模型(BTM)存在固有理论缺陷,导致模型训练不稳定、效果受限,甚至引发安全隐患。来自作业帮教育科技(北京)有限公司的研究团队,在ICML 2025上提出了一种基于能量的新型偏好模型(EBM),名为无限偏好模型(IPM),并基于此设计了实用的能量偏好对齐(EPA)损失函数。理论分析和大量实验表明,该方法从根本上解决了BTM的缺陷,在多个关键指标上显著超越DPO、IPO、KTO等主流离线对齐方法,为构建更稳定、更可靠、更安全的AI系统提供了新路径。

论文标题: Energy-Based Preference Model Offers Better Offline Alignment than the Bradley-Terry Preference Model作者: Yuzhong Hong, Hanshan Zhang, Junwei Bao, Hongfei Jiang, Yang Song单位: Zuoyebang Education Technology (Beijing), Co., Ltd

论文链接:https://openreview.net/forum?id=t5QNCIltAnICML论文主页:https://icml.cc/virtual/2025/poster/43792 

BTM的核心挑战:三大理论缺陷掣肘LLM对齐

基于人类反馈的强化学习(RLHF)的离线版方法(如DPO)是当前LLM对齐的主流技术。然而,其广泛依赖的Bradley-Terry偏好模型(BTM)存在难以克服的理论瓶颈:

“最优解不唯一”难题 (MLE非唯一性): 在LLM生成的海量、近乎无限的文本候选空间中,BTM的最大似然估计常常无法找到一个唯一确定的最佳解,导致模型训练像在“迷雾中寻路”,难以稳定收敛到最优状态。

“奖励失真”风险 (斜率-1线性性偏离): 理想的RLHF要求模型学到的奖励与真实奖励保持严格的“1:1”增长关系(斜率-1)。但BTM难以保证这点,学到的奖励信号可能“失真”,导致模型优化方向偏离人类真实意图。

“数据盲区”隐患 (数据依赖性强): BTM的性能高度依赖已有偏好数据。对于数据未覆盖或未观测到的样本,模型容易产生偏差,如同在“已知地图”外迷失方向。

这些缺陷在智能助手(回答矛盾)、内容生成(质量波动)、安全对齐(危险指令识别不稳)等场景中尤为突出,成为LLM迈向实用化、安全化的关键障碍。

能量模型IPM:为“无限选择”提供理论最优解

ICML 2025 | 作业帮团队提出基于能量的偏好模型(EBM),攻克LLM对齐痛点,性能超越主流方法

作业帮研究团队另辟蹊径,提出基于能量的无限偏好模型(IPM)。其核心思想是:一个回复的“好”,体现在它比所有其他可能的回复都要好。这通过玻尔兹曼分布形式进行建模。

理论基石稳固:IPM 严格保证了最大似然估计(MLE)的唯一存在性,为模型训练提供了清晰、唯一的优化目标。这直接解决了BTM的“迷雾寻路”问题。

“1:1奖励”的保证: 理论证明,IPM找到的最优解,恰好能使学到的奖励与真实奖励完美满足斜率-1的线性关系,从根本上杜绝了“奖励失真”。

拥抱“无限可能”: IPM通过“全局归一化”的概念,天然适应无限候选空间,有效缓解了BTM在“数据盲区”的偏差问题。

EPA:让理论优势落地的高效“引擎”

然而,IPM的计算涉及对所有可能回复的求和,这在实践中(无限空间)无法直接实现。为此,团队设计了能量偏好对齐(EPA)损失函数,作为寻找IPM最大似然估计的高效近似方案。

ICML 2025 | 作业帮团队提出基于能量的偏好模型(EBM),攻克LLM对齐痛点,性能超越主流方法

ICML 2025 | 作业帮团队提出基于能量的偏好模型(EBM),攻克LLM对齐痛点,性能超越主流方法

“三样本”对比学习: EPA创新性地结合了三种样本:一个优质正样本(赢家),一个或一组强负样本(普通输家),以及一组弱负样本(错配的样本)。这种组合平衡了信息的明确性和样本的多样性。

“软约束”防过拟合: 损失函数设计巧妙,不仅让赢家得分高于输家,还通过弱负样本引入一种“软约束”或正则化效应,它们的的作用如同“围栏”,防止模型过度关注有限的训练样本对,提升了泛化能力和训练稳定性。

计算高效: 该设计避免了直接处理无限空间,实现了计算可行性。

实验验证:全面领先,优势显著

研究在Ultrafeedback、Alpaca-Eval 2.0、MT-Bench等权威基准上,将EPA与DPO、IPO、KTO等前沿方法进行了系统对比:

更“真”的奖励: 在衡量奖励与真实奖励线性关系的关键指标上,EPA显著优于DPO(Pearson系数:0.5808 vs 0.4693;斜率-1线性误差:5.01 vs 5.78),验证了其理论优势在实际优化中的体现。

ICML 2025 | 作业帮团队提出基于能量的偏好模型(EBM),攻克LLM对齐痛点,性能超越主流方法

更“优”的生成效果: 在反映人类偏好的黄金基准Alpaca Eval 2.0上,EPA的最高胜率达到21.31%,相比DPO(17.43%)提升接近4个百分点,生成质量获得人类评判者更高认可。

ICML 2025 | 作业帮团队提出基于能量的偏好模型(EBM),攻克LLM对齐痛点,性能超越主流方法更“稳”的训练过程: 分析显示,当模型探索空间增大(高KL散度区域)时,EPA学到的奖励质量更高;在MT-Bench上的训练过程也显示出更强的稳定性,过拟合更慢,印证了弱负样本“正则化”的有效性。

ICML 2025 | 作业帮团队提出基于能量的偏好模型(EBM),攻克LLM对齐痛点,性能超越主流方法

应用潜力广阔,助力安全可控AI

EBM(IPM/EPA)框架为解决LLM离线对齐的核心挑战提供了新范式,具有重要应用前景:

低资源高效对齐: 更高效利用有限偏好数据,降低对海量标注的依赖。

加固安全护栏: 稳定的奖励学习特性,为模型规避有害输出提供更可靠的安全约束。

多模态扩展: 理论框架可推广至图文、视频等多模态内容的偏好对齐。

未来方向将聚焦于提升EPA的计算效率,并探索专门针对能量模型的优化技巧,进一步释放其潜力。

结语:从理论缺陷到更优解

本研究不仅深刻揭示了广泛应用的Bradley-Terry模型在LLM偏好对齐中的理论缺陷,更重要的是,提出了基于能量的无限偏好模型(IPM)及其高效实现方案EPA。坚实的理论保证(MLE唯一性、斜率-1线性性)和全面的实验验证(奖励更真、效果更优、训练更稳)共同表明,EBM为LLM的离线偏好对齐提供了一条更可靠、更优越的技术路径。这一进展有望推动RLHF技术发展,为构建行为更可控、输出更安全的新一代AI系统奠定更坚实的基础。

相关资讯

物理学家靠生物揭开AI创造力来源:起因竟是“技术缺陷”

不圆 发自 凹非寺. 量子位 | 公众号 QbitAIAI的“创造力”居然是一种技术缺陷? ?
7/4/2025 6:01:33 PM
不圆

ICML 2025,相约加拿大温哥华!机器之心免费请你吃饭

作为 AI 领域最具影响力的学术会议之一,今年 ICML 将于 7 月 13 日至 7 月 19 日在加拿大温哥华会议中心举行。 在高强度的会议日程之外,不妨为自己预留一些时间,参与一场更轻松、更自由的线下交流活动 ——7 月 15 日「云帆・ICML 2025 AI Talent Meetup」期待您的到来。 这是机器之心与上海人工智能实验室、东方菁汇、全球高校人工智能学术联盟共同攒的饭局,旨在为企业和人才搭建沟通桥梁。
7/11/2025 8:30:00 PM
机器之心

ICML 2025 | 清华、上海AI Lab提出专家级医学基准MedXpertQA,看o3、R1哪家强

本文作者来自于清华大学和上海 AI Lab,通讯作者为清华大学丁宁助理教授和清华大学讲席教授、上海 AI Lab 主任周伯文教授。 论文标题:MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding论文:: : ICML 2025 接收,并且被 DeepMind MedGemma 采用为评估基准。 基准地址:?
7/8/2025 1:01:00 PM
机器之心
  • 1