AI在线 AI在线

重大突破!研究团队揭示大语言模型内部潜藏的 “奖励机制”

近日,南京大学的周志华教授团队发布了一项重要研究,首次理论证明了在大语言模型中可以发现内源性奖励模型,并有效应用强化学习(RL)来提升模型表现。 当前,许多对齐方法依赖于人类反馈强化学习(RLHF),这种方法需要大量高质量的人类偏好数据来训练奖励模型。 然而,构建这样一个数据集不仅耗时费力,还面临成本高昂的挑战。

近日,南京大学的周志华教授团队发布了一项重要研究,首次理论证明了在大语言模型中可以发现内源性奖励模型,并有效应用强化学习(RL)来提升模型表现。

当前,许多对齐方法依赖于人类反馈强化学习(RLHF),这种方法需要大量高质量的人类偏好数据来训练奖励模型。然而,构建这样一个数据集不仅耗时费力,还面临成本高昂的挑战。因此,研究者们开始探索替代方案,其中基于 AI 反馈的强化学习(RLAIF)受到关注。这种方法利用强大的大语言模型自身生成奖励信号,以降低对人类标注的依赖。

大模型 元宇宙 (2)

图源备注:图片由AI生成,图片授权服务商Midjourney

研究团队的发现令人振奋:在标准的下一个 Token 预测训练中,强大的通用奖励模型其实是潜藏于每一个大语言模型中的。团队提出的 “内源性奖励” 概念,意味着我们可以从这些模型中提取出一种有效的奖励机制,而无需依赖外部的评估来源。这一理论不仅为奖励模型的构建提供了新思路,还展示了如何有效地利用模型自身的内源性奖励进行微调,进而显著提升模型的表现。

研究结果表明,使用内源性奖励进行的微调能够在误差范围内超越传统基线模型,尤其在复杂任务中表现更为突出。团队进行了广泛的实验验证,结果显示这一新方法优于现有的奖励模型,并且在各类测试中表现出色。

此研究的发布,无疑为未来的大语言模型开发和应用打开了新的大门。研究人员希望,这种利用内部奖励机制的策略,能够降低开发成本,提高效率,并推动人工智能的更广泛应用。

相关资讯

ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景

RLHF 通过学习人类偏好,能够在难以手工设计奖励函数的复杂决策任务中学习到正确的奖励引导,得到了很高的关注,在不同环境中选择合适的人类反馈类型和不同的学习方法至关重要。然而,当前研究社区缺乏能够支持这一需求的标准化标注平台和统一基准,量化和比较 RLHF 的最新进展是有挑战性的。本文中,天津大学深度强化学习实验室的研究团队推出了面向现实决策场景的 Uni-RLHF 平台,这是一个专为 RLHF 量身定制的综合系统实施方案。它旨在根据真实的人类反馈提供完整的工作流程,一站式解决实际问题。论文题目:Uni-RLHF:
3/27/2024 6:48:00 PM
机器之心

昆仑万维再次开源奖励模型Skywork-Reward-V2

2025年7月4日,昆仑万维乘势而上,继续开源第二代奖励模型Skywork-Reward-V2系列。 此系列共包含8个基于不同基座模型、参数规模从6亿到80亿不等的奖励模型,一经推出便在七大主流奖励模型评测榜单中全面夺魁,成为开源奖励模型领域的焦点。 奖励模型在从人类反馈中强化学习(RLHF)过程中起着关键作用。
7/5/2025 7:46:41 AM
AI在线

北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]
9/15/2024 1:41:00 PM
机器之心
  • 1