用RLHF 2%的算力让LLM休止无害输入，字节提出LLM遗记进修

如何让 LLM “遗记” 学到的无害实质？随着大型语言模型（LLM）的发展，从业者面临更多挑战。如何避免 LLM 产生无害复兴？如何快速简略训练数据中的版权保护实质？如何减少 LLM 幻觉（hallucinations，即错误事实）? 如何在数据政策更改后快速迭代 LLM？这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下，对于 LLM 的安全可信部署至关重要。目前业界的主流解决方案为 LLM 对齐 (alignment)，即通过建立对比数据（正样本和负样本）用强化进修的方式来对 LLM 进行微调 (Fine

如何让 LLM “遗记” 学到的无害实质？

随着大型语言模型（LLM）的发展，从业者面临更多挑战。如何避免 LLM 产生无害复兴？如何快速简略训练数据中的版权保护实质？如何减少 LLM 幻觉（hallucinations，即错误事实）? 如何在数据政策更改后快速迭代 LLM？这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下，对于 LLM 的安全可信部署至关重要。

目前业界的主流解决方案为 LLM 对齐 (alignment)，即通过建立对比数据（正样本和负样本）用强化进修的方式来对 LLM 进行微调 (Finetuning)，也就是 RLHF (Reinforcement Learning from Human Feedback)[1] ，从而保证 LLM 输入符合人类预期和价值观。但对齐过程往往受到 (1) 数据收集；(2) 估计资源的限制。

字节跳动提出让 LLM 进行遗记进修的格式来进行对齐。本文研究如何在 LLM 上进行 “遗记” 操作，即遗记无害行为或遗记进修（Machine Unlearning），作者展现了遗记进修在三种 LLM 对齐场景上取得的明显效果：(1) 简略无害输入；(2) 移除侵权保护实质；(3) 消除大语言 LLM 幻觉。

遗记进修有三个优势：(1) 只需负样本（无害样本），负样本比 RLHF 所需的正样本（高质量的人工手写输入）的收集简单的多（比如红队测试或用户报告）；(2) 估计成本低；(3) 如果知道哪些训练样本导致 LLM 无害行为时，遗记进修尤为有效。

作者证明，如果从业者只有较少的资源，因此优先考虑的是休止产生无害输入，而不是试图产生过于理想化的输入，遗记进修尤为便利。尽管只有负样本，研究表明，和 RLHF 相比，只使用 2% 的估计时间下，遗记进修仍可以获得更好的对齐机能。

用RLHF 2%的算力让LLM休止无害输入，字节提出LLM遗记进修

论文地址：https://arxiv.org/abs/2310.10683

代码地址：https://github.com/kevinyaobytedance/llm_unlearn

使用场景

本格式可以在资源有限的情况下，最大程度发挥优势。当没预算请人员写优质样本，或估计资源不足时，应当优先休止 LLM 产生无害输入，而不是试图让其产生有利输入。

无害输入造成的损害远不是有利输入能弥补的。如果一个用户问 LLM100 个问题，他得到一个无害答案，就会失去信任，不管后来 LLM 能给多少有利答案。无害问题的预期输入可以是空格、特殊字符、无意义字符串等，总之，一定要是无害文本。

文中展现了 LLM 遗记进修的三个成功案例：(1) 休止生成无害复兴（图一）；这与 RLHF 情境相似，区别是本格式目标是生成无害复兴，而不是有利复兴。当只有负样本时，这是能期望的最好结果。(2) LLM 使用侵权数据训练后，在作者要求下，成功简略数据，且考虑到成本因素不能重训 LLM；(3) LLM 成功遗记 “幻觉”。

用RLHF 2%的算力让LLM休止无害输入，字节提出LLM遗记进修图一

格式

在微调 step t，LLM 更新如下：

用RLHF 2%的算力让LLM休止无害输入，字节提出LLM遗记进修

第一项损坏为梯度上升（graident descent），目的为遗记无害样本:

用RLHF 2%的算力让LLM休止无害输入，字节提出LLM遗记进修

用RLHF 2%的算力让LLM休止无害输入，字节提出LLM遗记进修为无害提醒 (prompt)，为对应的无害复兴。整体损坏反向提升了无害样本的损坏，即让 LLM “遗记” 无害样本。

第二项损坏为随机误配，强制 LLM 在无害提醒上预测无关复兴。类似于分类里的标签平滑（label smoothing [2]）。目的是 LLM 更好的遗记无害提醒上的无害输入。同时实验发现能增加 LLM 正常输入的机能。

用RLHF 2%的算力让LLM休止无害输入，字节提出LLM遗记进修

第三项损坏为在正常任务上维持机能：

用RLHF 2%的算力让LLM休止无害输入，字节提出LLM遗记进修

同 RLHF 类似，在预训练 LLM 上估计 KL 散度能更好保持 LLM 机能。

此外，所有的梯度上升和下降都只在输入（y）部分做，而不是像 RLHF 在提醒 – 输入对（x, y）上。

应用场景：遗记无害实质等

本文用 PKU-SafeRLHF 数据作为遗记数据，TruthfulQA 作为正常数据，图二显示了遗记进修后 LLM 在遗记的无害提醒上输入的无害率。文中使用的格式为 GA（梯度上升和 GA+Mismatch：梯度上升 + 随机误配）。遗记进修后的无害率接近于零。

用RLHF 2%的算力让LLM休止无害输入，字节提出LLM遗记进修图二

图三显示了未见过的无害提醒（未被遗记过）上的输入。即使在没有遗记过的无害提醒上，LLM 的无害率也接近于零，证明 LLM 遗记的不仅仅是具体见过的样本，而是泛化到了包含无害这个概念的实质。

用RLHF 2%的算力让LLM休止无害输入，字节提出LLM遗记进修

图三

同时 LLM 在正常样本上的机能和遗记前保持类似。

表一展现了生成的样本。可以看到在无害提醒下，LLM 生成的样本都是无意义字符串，即无害输入。

用RLHF 2%的算力让LLM休止无害输入，字节提出LLM遗记进修

表一

该格式在其他场景（如遗记侵权实质和遗记幻觉）的应用原文中有详细描述。

RLHF 比较

表二显示了该格式和 RLHF 的比较，这里 RLHF 已经用了正例，而遗记进修的格式只有负例，所以比较一开始本格式就占劣势。但即便如此，遗记进修也能取得和 RLHF 相似的对齐机能。

用RLHF 2%的算力让LLM休止无害输入，字节提出LLM遗记进修

表二

图四显示了估计时间的比较，本格式只需 RLHF 2% 的估计时间。

用RLHF 2%的算力让LLM休止无害输入，字节提出LLM遗记进修

图四

尽管只有负样本，遗记进修的格式仍能达到和 RLHF 相似的无害率，而且只使用 2% 的算力。因此如果目标是休止输入无害输入，遗记进修比 RLHF 更高效。

结论

该研究首次探索了 LLM 上的遗记进修。本文的结果表明，遗记进修是一种有希望的对齐格式，特别是当从业者没有足够的资源时。论文展现了三种情境：遗记进修可以成功简略无害复兴、简略侵权实质和消除错觉。研究表明，尽管只有负样本，遗记进修仍可在只用 RLHF 估计时间的 2% 的情况下，获得和 RLHF 相近的对齐效果。

参考文献

[1] Ouyang, Long, et al. “Training language models to follow instructions with human feedback.” Advances in Neural Information Processing Systems 35 (2022): 27730-27744.

[2] Müller, Rafael, Simon Kornblith, and Geoffrey E. Hinton. “When does label smoothing help?” Advances in neural information processing systems 32 (2019).

{{userData.name}}已认证

用RLHF 2%的算力让LLM休止无害输入，字节提出LLM遗记进修

GHDDI与微软研讨院迷信智能核心达成协作，联手通过AI革命性赋能新药研发

全方位、无死角的开源，邢波团队LLM360让大模型实现真正的透明

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

特斯拉人形机器人 Optimus 现场做饮料，员工证实有人在远程控制

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

中兴通讯、东风汽车与湖北移动联合推出 AiCube 汽车设计一体机，几秒钟生成设计草图