斯坦福提出比照偏好进修：无需加强进修即可从人类反馈中进修

我们知道，ChatGPT 的成功离不开 RLHF 这个「秘密武器」。不过 RLHF 并不是完美无缺的，存在难以处理的优化困难。本文中，斯坦福大学等研究机构的团队探索用「比照偏好进修」替换掉「加强进修」，在速度和本能上都有不俗的浮现。在模型与人类意图对齐方面，根据人类反馈的加强进修（RLHF）已经成为一大流行范式。通常来说，RLHF 算法的工作过程分为两个阶段：一、利用人类偏好进修一个嘉奖函数；二、通过利用加强进修优化所进修的嘉奖来对齐模型。RLHF 范式假定人类偏好的分布遵照嘉奖，但近期有研究认为情况并非如此，人类

我们知道，ChatGPT 的成功离不开 RLHF 这个「秘密武器」。不过 RLHF 并不是完美无缺的，存在难以处理的优化困难。本文中，斯坦福大学等研究机构的团队探索用「比照偏好进修」替换掉「加强进修」，在速度和本能上都有不俗的浮现。

在模型与人类意图对齐方面，根据人类反馈的加强进修（RLHF）已经成为一大流行范式。通常来说，RLHF 算法的工作过程分为两个阶段：一、利用人类偏好进修一个嘉奖函数；二、通过利用加强进修优化所进修的嘉奖来对齐模型。

RLHF 范式假定人类偏好的分布遵照嘉奖，但近期有研究认为情况并非如此，人类偏好其实遵循用户最优计谋下的反悔值（regret）。因此，根据反馈进修嘉奖函数不仅鉴于一个有漏洞的对于人类偏好的假设，而且还会导致出现难以处理的优化困难 —— 这些困难来自加强进修阶段的计谋梯度或 bootstrapping。

由于存在这些优化困难，当今的 RLHF 格式都会将自身限定在鉴于上下文的 bandit 设置中（比如在大型语言模型中）或会限制自己的观察维度（比如鉴于情态的机器人技术）。

为了克服这些困难，斯坦福等多所大学的一个研究团队提出了一系列新算法，可利用鉴于反悔的人类偏好模型来优化采用人类反馈时的行为，而没有采用社区广泛接受的仅考虑嘉奖总和的部分回报模型。不同于部分回报模型，鉴于反悔的模型可直接提供有关最优计谋的信息。

这样一种机制带来了一个幸运的结果：完全不需要加强进修了！

这样一来，就能在具有高维情态和行动空间的通用型 MDP 框架中来解决 RLHF 问题了。

研究者提出，他们这项研究成果的核心见解是：将鉴于反悔的偏好框架与最大熵（MaxEnt）原理结合起来，可得到上风函数与计谋之间的双射。通过将对上风的优化换成对计谋的优化，可以推导出一个纯监视进修的标的，其最优值为专家嘉奖下的最优计谋。该团队将这种格式命名为比照偏好进修（Contrastive Preference Learning/CPL），因为其类似于人们广为接受的比照进修标的。

斯坦福提出比照偏好进修：无需加强进修即可从人类反馈中进修

论文地址：https://arxiv.org/pdf/2310.13639.pdf

代码地址：https://github.com/jhejna/cpl

相比于之前的格式，CPL 有三大关键上风。

一、CPL 能像监视进修一样扩张，因为它只利用监视式标的来匹配最优上风，而无需利用任何计谋梯度或动态规划。

二、CPL 是完全离计谋的格式，因此其可有效利用任何离线的次优数据源。

三、CPL 可应用于任意马尔可夫决策过程（MDP），使其可以从序列数据上的偏好查询中进修。

该团队表示，之前的 RLHF 格式都无法同时满足以上三点。为了表明 CPL 格式符合以上三点描述，研究者进行了试验，结果表明该格式确实能有效应对带有次优和高维离计谋数据的序列决策问题。

值得注意的是，他们在试验中发现：在 MetaWorld 基准上，CPL 竟能有效地利用与对话模型一样的 RLHF 微调流程来进修在时间上扩张的操作计谋。

具体来说，他们利用监视进修格式，在高维图像观察上对计谋进行预训练，然后利用偏好来对其进行微调。无需动态规划或计谋梯度，CPL 就能达到与鉴于先验式加强进修的格式一样的本能浮现。与此同时，CPL 格式要快 1.6 倍，参数效率也提高了四倍。当利用更密集的偏好数据时，CPL 的本能浮现在 6 项任务的 5 项上超越了加强进修。

比照偏好进修

这种格式的核心思想很简单：研究者发现，当利用最大熵加强进修框架时，反悔偏好模型中利用的上风函数可被轻松替换成计谋的对数概率。但是，这种简单的替换能带来巨大的好处。如果利用计谋的对数概率，就不需要进修上风函数或应付与类加强进修算法相关的优化困难了。

研究者表示，这不仅能造就对齐更紧密的反悔偏好模型，还能完全依靠监视进修来进修人类反馈。

下面首先将推导 CPL 标的，并表明对于带有无界数据的专家用户嘉奖函数 r_E，该格式可以收敛到最优计谋。然后将说明 CPL 与其它监视进修格式的联系。最后，研究者将说明如何在实践中利用 CPL。他们表示，这些算法属于一个用于解决序列决策问题的新格式类别，这类格式非常高效，因为它能直接从鉴于反悔的偏好中进修出计谋，而无需加强进修。

斯坦福提出比照偏好进修：无需加强进修即可从人类反馈中进修

从最优上风到最优计谋

在利用反悔偏好模型时，偏好数据集 D_pref 包含有关最优上风函数 A^∗ (s, a) 的信息。我们可以直观地认为，该函数度量的是一个给定行动 a 比最优计谋在情态 s 时生成的行动的糟糕程度。

因此根据定义，最大化最优上风的行动就是最优行动，并且从偏好进修最优上风函数应该让人能直观地提取出最优计谋。

具体而言，该团队证明了以下定理：

斯坦福提出比照偏好进修：无需加强进修即可从人类反馈中进修

直接进修计谋的好处。以这种方式直接进修 π 有诸多实践和理论上的好处。其中最明显的可能是：直接进修计谋的话，就无需进修其它任何函数了，比如嘉奖函数或价值函数。这使得 CPL 比之前的格式简单很多。

与比照进修的联系。CPL 格式直接利用一个比照标的来进行计谋进修。研究者表示，鉴于比照进修标的已经在大型数据集和神经网络方面取得了有目共睹的成功，因此他们预计 CPL 能比利用传统加强进修算法的加强进修格式进行更好的扩张。

实践方面需要考虑的问题

比照偏好进修框架提供了一个通用的损失函数，可用于从鉴于上风的偏好中进修计谋，鉴于此可以派生出许多算法。下面将鉴于一个实践效果很好的特定 CPL 框架实例介绍实践方面需要考虑的问题。

利用有限离线数据的 CPL。尽管 CPL 可通过无界偏好数据收敛到最优计谋，但实际上我们通常关心的是进修有限离线数据集。在这种设置下，外推到数据集支持之外太远的计谋浮现很差，因为它们采取的行动会导致出现分布之外的情态。

正则化。在有限设置中，我们希望选择能最小化 CPL 损失函数的计谋，同时为该数据集中的行动赋予更高的可能性。为了做到这一点，研究者利用一个保守的正则化器得到了以下损失函数：当计谋在 D_pref 中的行动上有更高的可能性时，就分配更低的损失，从而保证其在分布内。

斯坦福提出比照偏好进修：无需加强进修即可从人类反馈中进修

预训练。该团队发现，如果利用行为克隆（BC）格式对计谋 π_θ 进行预训练，往往能得到更优的结果。因此，在通过 CPL 损失利用偏好来进行微调之前，该团队利用了标准的最大似然行为克隆标的来训练计谋，即：

斯坦福提出比照偏好进修：无需加强进修即可从人类反馈中进修

试验及结果

这一节将解答以下有关 CPL 的问题：一、CPL 能否有效地根据鉴于反悔的偏好来微调计谋？二、CPL 能否扩张用于高维控制问题和更大的网络？三、CPL 的哪些组件对于获得高本能很重要？

偏好数据。利用次优的离计谋 rollout 数据和偏好，研究者评估了 CPL 为一般性 MDP 进修计谋的能力。

基准格式。试验中考虑了三种基准格式：监视式微调（SFT）、偏好隐式 Q 进修（P-IQL）、% BC（通过对 rollout 的 top X% 进行行为克隆来训练计谋）。

CPL 浮现如何？

利用鉴于情态的观察数据时，CPL 浮现如何？对于鉴于情态的试验结果，主要可见表 1 的第 1 和 3 行。

当利用更稀疏的比较数据时（第 3 行），CPL 在 6 个环境中的 5 个上都优于之前的格式，并且相比于 P-IQL 的上风大都很明显，尤其是 Button Press、Bin Picking 和 Sweep Into 环境。当应用于具有更密集比较的数据集时，CPL 比 P-IQL 的上风还要更大（第 1 行），并且在所有环境上都很显著。

斯坦福提出比照偏好进修：无需加强进修即可从人类反馈中进修

CPL 如何扩张用于高维观察数据？为了测试 CPL 的监视标的能否扩张用于高维连续控制问题，该团队将 MetaWorld 数据集渲染成了 64 × 64 的图像。

表 1 的第 2 和 4 行给出了鉴于图像的试验结果。他们得到了有趣的发现：对 SFT 来说，本能浮现略有提升，但 P-IQL 的提升却很明显。当进修更密集的偏好数据时（第 2 行），CPL 仍旧在 6 个环境中的 4 个上优于 P-IQL，在 Sweep Into 上两者相当。当进修更稀疏的比较数据时（第 4 行），CPL 和 P-IQL 在大多数任务上都浮现相当。

考虑到 CPL 有明显更低的复杂性，这样的结果就更惊人了！P-IQL 必须进修一个嘉奖函数、一个 Q 函数、一个价值函数和一个计谋。CPL 则都不需要，它只需进修一个计谋，这能极大减少训练时间和参数数量。

正如下表 2 所示，在图像任务上，CPL 的运行速度比 P-IQL 快 1.62 倍，并且参数数量还不到 P-IQL 的四分之一。随着网络越来越大，利用 CPL 所带来的本能增益只会有增无减。

斯坦福提出比照偏好进修：无需加强进修即可从人类反馈中进修

哪些组件有助于 CPL 的本能浮现？

从试验结果可以看到，当利用有更密集比较的数据集时，CPL 和基准格式之间的差距会更大。这与之前在比照进修方面的研究成果一致。

为了研究这种效果，研究者鉴于一个包含 5000 个片段的固定大小的数据集，通过增加每个片段采样的比较数量，对 CPL 的本能进行了评估。下图 2 给出了在鉴于情态的观察数据的开抽屉（Drawer Open）任务上的结果。

整体上看，当每片段采样的比较数量增加时，CPL 都能从中受益，仅有 Plate Slide 任务例外。

斯坦福提出比照偏好进修：无需加强进修即可从人类反馈中进修

最后，该团队也对 CPL 的超参数（温度值 α 和偏差正则化器 λ）进行了消融研究；该研究也鉴于开抽屉任务，结果见图 2 右侧。尽管 CPL 利用这些值的浮现已经很好了，但试验发现通过适当调整超参数（尤其是 λ），其浮现还能更好。

{{userData.name}}已认证

斯坦福提出比照偏好进修：无需加强进修即可从人类反馈中进修

GPT-4比你更会问题目：让大模型自主复述，打破与人类对话的壁垒

全新类似注意力机制HyperAttention：对长上下文友好、LLM推理提速50%

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

特斯拉人形机器人 Optimus 现场做饮料，员工证实有人在远程控制

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

中国移动推出“灵犀”家庭智能体，支持智能搜索、对话交互等功能