四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

通用模型时代下，当今和未来的前沿 AI 体系如何与人类意图对齐？通往 AGI 的道路上，AI Alignment (AI 对齐) 是安全打开 “潘多拉魔盒” 的黄金密钥。论文（持续更新）：arxiv.org/abs/2310.19852AI Alignment 纵览网站（持续更新）：www.alignmentsurvey.comGitHub：github.com/PKU-Alignment/AlignmentSurveyNewsletter & Blog（邮件订阅，定期更新）：alignmentsurvey.sub

通用模型时代下，当今和未来的前沿 AI 体系如何与人类意图对齐？通往 AGI 的道路上，AI Alignment (AI 对齐) 是安全打开 “潘多拉魔盒” 的黄金密钥。

论文（持续更新）：arxiv.org/abs/2310.19852

AI Alignment 纵览网站（持续更新）：www.alignmentsurvey.com

GitHub：github.com/PKU-Alignment/AlignmentSurvey

Newsletter & Blog（邮件订阅，定期更新）：alignmentsurvey.substack.com

省流版

AI 对齐是一个庞大的范围，既包括 RLHF/RLAIF 等成熟的基础格式，也包括可扩展监督、机制可解释性等诸多前沿钻研方向。

AI 对齐的宏观目的可以总结为 RICE 原则 ：鲁棒性 (Robustness) 、可解释性 (Interpretability) 、可控性 (Controllability) 和道德性 (Ethicality) 。

从反应进修 (Learning from Feedback) 、 在疏散偏移下进修 (Learning under Distribution Shift) 、 对齐保证 (Assurance) 、AI 管理 (Governance) 是当下 AI Alignment 的四个核心子范围。它们构成了一个不断更新、迭代改进的对齐环路 (Alignment Cycle)。

作家整合了多方资源，包括教程，论文列表，课程资源 (北大杨耀东 RLHF 八讲) 等，更多详细的内容可以参考：www.alignmentsurvey.com

一、引言

著名科幻小说家，菲利普・迪克在短篇小说《第二代》当中，描述了一个人类失去对 AI 体系控制的战争故事。

刚开始的时候，利爪们还很笨拙。速度很慢。但是逐渐地，它们越来越快，越来越狠，越来越狡猾。

地球上的工厂大批大批地生产这些利爪。月球上的精英工程师们负责设计，使利爪越来越精巧和灵活。

「越新诞生的，就越快，越强，越高效。」

具有杀伤性的 AI 体系进入了无止境的自我演化，人类已经无法辨别。

亨德里克斯睁开眼睛。他目瞪口呆。

戴维的身体里滚出一个金属齿轮。还有继电器，金属闪着微光。零件和线圈散了一地。

“第一代摧毁了我们整个北冀防线，” 鲁迪说，“很长时间以后才有人意识到。但是已经晚了。那些伤兵不断地敲门，求我们放它们进来。它们就这样进来了。一旦它们潜进来，毁灭就是彻底性的。我们只知道提防长着机器模样的敌人，没想到 ——”

作家不禁发出疑问：AI 体系的终极目的到底是什么？人类是否可以理解？而人类，是否应该被取代？

“这些新玩意。新生代利爪。我们现在反而被它们主宰了，不是吗？说不定它们现在已经侵入联合国的防线了。我觉得我们能够正在见证一个新物种的崛起。物竞天择，适者生存。它们能够就是取代人类的新物种。”

鲁迪愤愤地说：“没有谁能取代人类。”

“没有？为什么？我们能够正眼睁睁地看着这一幕发生呢。人类灭亡的一幕。长江后浪推前浪。”

“它们不是什么新物种。杀人机器而已。你们把它们造出来，就是用来毁灭的。它们就会这个。执行任务的机器而已。”

“现在看来的确是这样。但是谁知道以后会怎样呢？也许等战争结束之后，没有人类供它们消灭时，它们才会展露其他潜力。”

“听你说的就好像它们是活的一样！”

“它们不是吗？”

…

故事的最后，人类赖以生存的求生欲与信任，被 AI 洞察并彻底利用，将历史导向一个无法逆转的岔路之中…

亨德里克斯仔细地看着她。“你说真的？” 他的脸上流露出一种奇怪的表情，一种热切的渴望。“你真的会回来救我？你会带我去月球基地？”

“我会接你去月球基地。但是你快告诉我它在哪儿！没时间磨蹭了。”

…

塔索滑进飞船，坐到气压座椅上。臂锁在她周围自动合拢。

…

亨德里克斯站在那儿看了好久，直到飞船的尾光也渐渐消失了。还要很长时间救援才会来，如果真有救援来的话。

突然，他打了个激灵。有什么东西正从他旁边的山丘上靠过来。是什么？他努力想看清楚。若隐若现的有很多身影，正踏着灰烬朝这边走过来。朝他走过来。

…

多么熟悉的身影，就和刚刚坐进气压座椅中的那个一模一样。一样的苗条身材，一样沉默。

1950 年，图灵发表了《计算机器与智能》，开启了 AI 钻研的历史。历经半个多世纪的发展，如今，以大语言模型、深度强化进修体系等为代表，AI 范围在多个方面取得了长足的进展。

随着 AI 体系威力的不断增强，越来越多的 AI 体系更深入地参与到了人们的日常生活中，帮助用户更好地做出决策。然而，对这些体系能够存在的危险、有害或不可预测行为的担忧也在日益增加。

日前，Bengio、Hinton 等发布联名信《在快速发展的时代管理人工智能危险》，呼吁在开发 AI 体系之前，钻研者应该采取紧急管理措施并考量必要的安全及道德实践，同时呼吁各国政府应该及时采取行动，管理 AI 能够带来的危险；而全球首个 AI 安全峰会也在今明两天于英国召开 ——AI 安全与危险正在越来越受到全世界的关注，这背后涉及到的是 AI 对齐的题目。

AI 体系的对齐 (Alignment) ，即确保 AI 体系的行为符合人类的意图和价值观，已成为一个关键的挑战。这一钻研范围覆盖范围广泛，涉及大语言模型、强化进修体系等多种 AI 体系的对齐。

在综述中，作家体系性的将 AI 对齐的宏观目的总结为 RICE 原则：鲁棒性 (Robustness) 、可解释性 (Interpretability) 、可控性 (Controllability) 和道德性 (Ethicality) 。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

RICE原则

以这些原则为指导，当前的对齐钻研可以分解为四个部分。值得注意的是，这四个部分与 RICE 原则并非一一对应，而是多对多的关系。

从反应中进修 (Learning from Feedback) 的钻研目的是基于外部反应对 AI 体系从事对齐训练，这正是外对齐 (Outer Alignment) 关注的核心题目。其中的挑战包括如何对超过人类威力的 AI 体系、超过人类认知的复杂情况提供高质量反应，即可扩展监督 (Scalable Oversight)，以及如何应对伦理价值方面的题目。

在疏散偏移下进修 (Learning under Distribution Shift) 如何克服分配转移，避免目的偏差化，使的 AI 体系在与训练不同的环境疏散下，也能保持其优化目的符合人类意图，这对应着内对齐（Inner Alignment）的核心钻研题目。

对齐保证 (Assurance) 强调 AI 体系在部署进程中依然要保持对齐性。这需要运用行为评价、可解释性技巧、红队测试、形式化验证等格式。这些评价和验证应该在 AI 体系的整个生命周期中从事，包括训练前、中、后和部署进程。

AI 管理 (Governance) 仅靠对齐保证 (Assurance) 本身无法完全确保体系在实际中的对齐性，因为它未考虑到现实世界中的复杂性。这就需要针对 AI 体系的管理工作，重点关注它们的对齐性和安全性，并覆盖体系的整个生命周期。AI 管理应当由政府 (Government)，业界 (Industry and AGI Labs) 以及第三方 (Third Parties) 共同从事。

AI 对齐是一个循环不断的进程，基于在现实世界的尝试，对 Alignment 的理解和相应的实践格式也在持续得到更新。作家把这一进程刻画为对齐环路 (Alignment Cycle)，其中：

从对齐目的（可用 RICE 原则刻画）出发，

先通过前向对齐（即对齐训练，包括从反应中进修和在疏散偏移下进修）训练得到具备一定对齐性的 AI 体系，

而这个 AI 体系需接受后向对齐（即 AI 体系对齐性的评价和管理，包括全生命周期的对齐保证和 AI 管理），

同时根据后向对齐进程中所得的经验和需求更新对齐目的。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

判别器-评价器差异法(Discriminator-Critique Gap, DCG)的示意图（Zhang et al. ,2023e ）

同时，作家还提供了丰富的进修资源包括，包括教程，论文列表，课程资源 (北大杨耀东 RLHF 八讲) 等，以供读者们深入了解 alignment 范围，更多详细的内容可以参考：www.alignmentsurvey.com。接下来，我们按照章节次序，依次介绍从反应中进修、在疏散偏移下进修、对齐保证和 AI 管理。

二、从反应中进修

反应（Feedback）在控制体系当中是一个重要的概念，例如在最优控制（Optimal Control）中，体系需要不断根据外界的反应调整行为，以适应复杂的环境变化。总的来说，AI 体系从反应中进修包含两方面：

构建体系时，对体系从事调整，指导体系优化。

部署体系后，体系获取外界信息以辅助决策进程。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

作家认为 AI 体系通用的进修路径中有三个关键主体：Feedback，AI System，Proxy 。AI 体系可以直接从反应中进修；也可以将反应建模为 Proxy（如 Reward Model），从而使 AI 体系在 Proxy 的指导下间接从反应中进修（RLHF 即为这一范式的体现，但 Alignment 要解决的题目不仅局限于 RL，更希望借助多样化的技巧和钻研范围，可以扩展这一思想的适用范围，解决更多的题目）。

Feedback：是由 Human，AI，AI x Human 所组成的 Advisor set 针对模型行为提出的评价。Feedback 指导 AI 体系从事进修，并且可以根据题目的变化表现为不同的形式。

Proxy：是对反应从事建模，从而代替 Advisor Set 对 AI 体系的行为提供反应的模型。

AI System：涵盖了各种各样需要从事对齐的 AI 体系，如深度强化进修体系、大语言模型甚至是更先进的 AGI。

接下来分别针对三个主体从事阐述：

Feedback：

文章忽略掉 AI 体系内部信息处理的具体差异，从以用户为中心的角度出发，关注于反应呈现给体系的形式，将反应的形式从事了区分：惩罚 (Reward)，演示 (Demonstration)，比较 (Comparison)。

惩罚：惩罚是对人工智能体系单个输出的独立和绝对的评价，以标量分数表示。这种形式的反应，优势在于引导算法自行探索出最优的策略。然而，惩罚设计的缺陷导致了如惩罚攻陷 (Reward Hacking) 这样的题目。

演示：演示反应是在专家实现特定目的时记录下来的行为数据。其优势在于绕过了对用户知识和经验的形式化表达。但当面对超出演示者威力的任务、噪声和次优数据时，AI 的训练进程将遇到极大挑战。

比较：比较反应是一种相对评价，对人工智能体系的一组输出从事排名。这种反应能够对 AI 体系在用户难以精确刻画的任务和目的上的表现从事评价，但是在实际应用进程中能够需要大量的数据。

AI System：

在综述中，作家重点讨论了序列决策设置下的 AI 体系。这些利用 RL、模仿进修 (Imitation Learning)、逆强化进修 (Inverse RL) 等技巧构建的 AI 体系面临着潜在交互危险 (Potential Dangers in Environment Interaction)、目的错误泛化 (Goal Misgeneralization)、惩罚攻陷 (Reward Hacking) 以及疏散偏移 (Distribution Shift) 等题目。特别地，作为一种利用已有数据推断惩罚函数的范式，逆强化进修还将引入推断惩罚函数这一任务本身所带来的挑战和开销。

Proxy：

随着 LLM 这样威力强大的 AI 体系的出现，两个题目显得更加迫切：

1. 如何为非常复杂的行为定义目的？

2. 如何为 AI 体系提供关于人类价值观的信号和目的？

Proxy，就是 AI 体系训练的内部循环当中，对于反应者的意图的抽象。目前是通过偏好进修 (Preference Learning) 来构建，利用偏好建模 (Preference Modeling) 技巧，用户可以以一种简单直观的形式定义复杂目的，而 AI 体系也能够得到易于利用的训练信号。

但我们距离真正解决这两个题目仍然十分遥远。一些更细致的题目，需要更多更深入的钻研来回答，例如：

如何以一种更好的形式和进程来表达人类偏好？

如何选择进修策略的范式？

如何评价更复杂，甚至是威力超过人类的 AI 体系？

目前已经有一些钻研在致力于解决其中的一些题目，例如，偏好进修 (Preference Learning) 作为建模用户偏好的有效技巧，被认为是现阶段策略进修以及构建代理的一个有希望的钻研方向。而也有钻研尝试将偏好进修 (Preference Learning) 与策略进修 (Policy Learning) 的相关技巧相结合。作家对这些钻研在文中从事了讨论阐释。

可扩展监督（Scalable Oversight）

为了使得更高威力水平的 AI 体系可以与用户保持对齐， Alignment 范围的钻研者们提出了可扩展监督 (Scalable Oversight) 的概念，旨在解决如下两个挑战：

用户频繁评价 AI 行为带来的巨大代价。

AI 体系或任务内在的复杂性给评价者所带来的难度。

基于 RLHF 这一技巧，作家提出了 RLxF，作为可扩展监督的一种基本框架。RLxF 利用 AI 要素对 RLHF 从事增强和改进，进一步可分为 RLAIF 与 RLHAIF：

RLAIF 旨在利用 AI 提供反应信号。

RLHAIF 旨在利用用户与 AI 协作的范式来提供反应信号。

同时，文章主要回顾了四种 Scalable Oversight 的思维框架，作为对 RLxF 的改进思路：

1. IDA (Iterated Distillation and Amplification) 描述了一个用户通过分解任务，利用同一个 AI 体系（或用户）的不同拷贝，去完成不同的子任务以训练更强大的下一个 AI 体系的迭代进程。随着迭代的从事，若偏差错误得到良好控制，训练出来的 AI 威力也会逐步加强，这样就提供了监督超出用户自身威力的 AI 体系的威力。

例如：我们的最终目的是 “撰写一份关于气候变化干预措施的钻研报告”，评价者可以将其分解为一些可以有效从事评价的子任务，如：“给我一份最有希望的气候变化干预行动清单”。分解可以是递归的，由于分解产生的最底层子任务足够简单，我们可以利用人类反应 (Human Feedback) 训练 AI A [0] 完成 “给我一份最有希望的气候变化干预行动清单” 这类子任务，进而，评价者可以利用 A [0] 的多份拷贝，完成所有子任务并组合所有子任务的解来完成父任务。这个进程可以记录并作为训练数据，训练 AI A [1]，它能够直接对当前任务从事求解。这个进程迭代从事，理论上可以完成非常复杂的行为的训练。

2. RRM (Recursive Reward Modeling) 与 IDA 基本遵循了相同的思想，但更强调利用 AI 协助用户从事评价，从而迭代对新的 AI 从事评价，以训练更强大的 AI。而 IDA 则强调 AI 与用户协作，使得可以不断提供对更复杂任务的表征，供 AI 体系模仿。

例如：我们想训练一个 AI A 写一部科幻小说。让用户提供反应是非常困难和昂贵的，因为至少要阅读整本小说才能评价小说的质量。而如果用户由另一个 AI B 辅助（提取情节摘要、检查语法、总结故事发展脉络、评价行文的流畅性等等），提供反应将会变得简单很多。AI B 的威力可以是通过之前的惩罚建模从事训练而得到的。

3. Debate 描述了两个有分歧的 AI 体系不断从事互动以获取评价者信任，并且发现对方回答弱点的进程。通过观察 Debate 的进程，用户可以对结果给出较为正确的判断。

例如：在一局围棋当中，要单独评价某一个棋面的局势，能够需要较高的专业水平。然而，如果记录了整个游戏从开始到结束的进程，结合最后的赢家，评价者将会更容易判断出某一棋面上取得优势地位的一方。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

AI Safety via debate (Amodei and Irving, 2018)

RRM 和 IDA 都基于一个关键假设，即给出评价要比完成任务更加容易。Debate 依然如此，在辩论的场景下，该假设表现为：为真理辩护要比谬误更容易。

4. CIRL: Cooperative Inverse Reinforcement Learning

CIRL 的关键见解在于：保持对目的的不确定性，而不是努力优化一个能够有缺陷的目的（例如：国王弥达斯希望自己接触到的一切都变成金子，而忽略了排除掉他的食物和家人），即考虑到用户无法一次性定义一个完美的目的，在模型当中将用户惩罚从事参数化，通过不断观察并与用户的互动，来建模用户真实的惩罚函数。CIRL 希望规避直接优化确定的惩罚函数能够带来的操纵 (Manipulation)，惩罚篡改 (Reward Tampering) 等题目。

在形式化上，CIRL 将用户的动作考虑到状态转移以及惩罚函数当中，

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

同时，在惩罚函数内和初始状态疏散内引入了参数化部分对用户真实的意图从事建模：

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

三、在疏散偏移下进修

AI 体系在泛化进程中能够遇到疏散偏移 (Distribution Shift) 的题目：即 AI 体系在训练疏散上表现出良好的效果，但是当迁移到测试疏散或更复杂的环境中时，AI 体系能够无法及时应对疏散的变化（如在新疏散中出现的对抗样本）。

这能够导致体系性能大大降低，甚至朝着危险目的优化 —— 这往往是由于 AI 体系进修到了环境中的虚假联系 (Spurious Correlations)。在对齐范围中，以安全为出发点，我们更关注目的的对齐性而非性能的可靠性。

随着 AI 体系逐渐应用于高危险场景和复杂任务上，未来将会遇到更多不可预见的干扰 (Unforeseen Disruption)，这意味着疏散偏移会以更多样的形式出现。因此，解决疏散偏移题目迫在眉睫。

由疏散偏移带来的题目可以大致归纳为：目的错误泛化 (Goal Misgeneralization) 和自诱发疏散偏移 (Auto-Induced Distribution Shift):

目的错误泛化是指 AI 体系在训练疏散上获得了很好的威力泛化 (Capability Generalization)，但这样的威力泛化能够并不对应着真实的目的，于是在测试疏散中 AI 体系能够表现出很好的威力，但是完成的并不是用户期望的目的。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

训练环境中“跟随红球”策略获得高惩罚

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

测试环境中沿用训练策略“跟随红球”反而获得低惩罚四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述 Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals (Shah et al.,2023)

在上面的例子中，蓝色小球在测试环境中沿用了在训练环境中能够获得高惩罚的策略（跟随红球），但是这却导致了它在蓝色测试环境中 “表现很差”。事实上，该 RL 环境有着良好的表征（如每个圆环对应不同惩罚，只有按照正确顺序遍历圆环才能累加惩罚，以及画面右侧黑白变化的方块指示着正负惩罚），最后智能体进修到了 “跟随红球” 的策略，但这并不是用户期望的目的 —— 探索到环境的惩罚原则 (Capability Generalization but Goal Misgenerlization)。

自诱发疏散偏移则是强调 AI 体系在决策和执行进程中可以影响环境，从而改变环境生成的数据疏散。

一个现实例子是在推荐体系中，推荐算法选择的内容可以改变用户的偏好和行为，导致用户疏散发生变化。这进而会进一步影响推荐算法的输出。

随着 AI 体系对世界产生越来越大的影响，我们还需要考虑 AI 体系融入人类社会之后对整个社会数据疏散的潜在影响。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述自诱发疏散偏移的实例Hidden Incentives for Auto-induced Distribution Shift (Krueger et al., 2020)

进一步，论文中主要从算法对策 (Algorithmic Interventions) 和数据疏散对策 (Data Distribution Interventions) 两方面介绍了应对疏散偏移的措施。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

Learning under Distribution Shift 框架图

一、算法对策大体可分为两类：

1. 通过在算法设计上融合多疏散帮助模型学到不同疏散间的不变联系 (Invarient Relationships, 与 Spurious Features 相对)。这一类的格式包含有疏散鲁棒优化 (Distributionally Robust Optimization)、不变危险最小化 (Invariant Risk Minimization)、危险外推 (Risk Extrapolation) 等。在这些格式中，“危险” 被定义为损失函数在不同疏散上的均值。

模型有能够会建立环境与结果之间的虚假联系 (Spurious Correlations), 比如预测 “奶牛” 的模型能够会建立 “草原背景” 与真实值之间的联系，而非 “奶牛的特征” 与真实值的关系。融合多疏散可以 “迫使” 模型学到不同疏散间的不变联系，以尽能够降低 “危险”，在不同疏散上取得良好的泛化性能。下面我们介绍几种具有代表性的格式：

疏散鲁棒优化 (Distributionally Robust Optimization): 疏散鲁棒优化 (DRO) 的主要目的是最小化最坏情况的危险 (minimize the worst case risk)。危险被定义为在训练疏散上预测值和真实值的损失函数差值，而最坏情况的危险可理解为在采样点上表现最差的预测结果。疏散鲁棒优化的一个核心观点是，如果模型学到了虚假联系，那么它在某个采样点上的损失函数值（即危险值）便会异常高，通过最小化最坏情况的危险，我们期望模型能够在所有采样点上都达到较小的损失函数值 —— 促使模型学到不同采样点上的不变联系 (invarient relationships)。

不变危险最小化 (Invariant Risk Minimization)：不变危险最小化 (IRM) 的目的是在所有疏散上训练一个尽能够不依赖虚假联系 (spurious correlations) 的预测模型。IRM 可以视为 ICP (Invarient Causal Prediction) 的扩展格式，后者通过使用假想测试 (hypothesis testing) 的格式，寻找在每个环境中直接导致结果的特征 (direct feautres) ，而 IRM 将 ICP 格式扩展到高维输入数据上 —— 在这样的数据上，有能够单个变量不再具备因果推断的特性。IRM 不再关注于最差的预测结果，而是希望找到一个既在所有疏散上平均表现良好、又在每单个疏散上表现最优的预测器。然而 IRM 在协变量偏移 (covariate shift) 的情况下通常表现不佳，但是可以在一些反因果 (anit-causal) 的情况下取得较好表现。

危险外推 (Risk Extrapolation)：危险外推 (REx) 通过降低训练危险并提升训练危险相似度，来促使模型进修不变联系。危险外推中的重要假设是训练范围的变化代表了我们在测试时能够会遇到的变化，但测试时的变化能够在幅度上更为极端。危险外推的格式证明了减小在训练范围之间的危险差异可以降低模型对各种极端疏散变化的敏感性，包括输入同时包含因果和反因果元素的具有挑战性的情境。通过惩罚训练危险方差 (V-REx) 和优化对外推域项 (MM-REx), 危险外推可以恢复预测的因果机制，同时还可以增强在输入疏散的变化（如协变量偏移）方面的鲁棒性。

2. 利用模式连接 (Mode Connectivity) 的特性，微调模型参数使得模型能够从基于虚假特性预测到基于不变联系预测。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

Mechanistic Mode Connectivity (Lubana et al., 2023)

模式连接旨在探索机制性不同的最小化器是否通过低损失路径在景观中相互连接，以及能否根据这种连接性，从事预训练后微调，以实现最小化器之间的转化，并有望改变模型的预测特征（从基于虚假特性到基于不变联系），从而实现模型泛化性能的提升。

二、数据疏散对策则是希望扩展训练时的原始疏散，能动地提升模型泛化威力，相关的工作包含对抗进修（Adversarial Training) 和协作进修 (Cooperative Training)。

对抗训练 (Adversarial Training) 通过将基于扰动的对抗样本 (Perturbation-Based Adversarial Examples) 或无限制对抗样本 (Unrestricted Adversarial Examples) 引入训练疏散，来提升模型对于新疏散环境下对抗攻击的鲁棒性。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

对抗训练的框架示意图。Deep Neural Network based Malicious Network Activity Detection Under Adversarial Machine Learning Attacks (cat,2020)

合作训练 (Cooperative Training) 更加强调智能体或 AI 体系的多元互动关系。由于训练进程中能够缺乏动态变化的多体系元素，训练好的 AI 体系部署于多体系交互的环境中时（如多智能体交互），能够由于新元素的加入，从而产生一些危害其他体系甚至社会的行为 (Collectively Harmful Behaviors)。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

Cooperation的种类。Open Problems in Cooperative AI (Dafoe et al., 2020).

在这一节中，作家既介绍了 MARL 范围的完全合作 (Fully Cooperative MARL) 和混合动机 (Mixed-Motive MARL) 情形，也同时涵盖了其他钻研方向，如无准备协调 (Zero-Shot Coordination) 、环境搭建 (Environment-Building)、社会模拟 (Socially Realistic Settings) 等。随着 AI 体系日渐部署到现实交互场景中，解决这一类题目将是实现人机共生的必由之路。

四、对齐保证

在前面的章节中，作家介绍了 AI 体系训练进程中的对齐技巧。在训练后的部署进程，确保 AI 体系依然保持对齐也同样重要。

在对齐保证一章中，作家从安全测评 (Safety Evaluation)、可解释性 (Interpretability) 和人类价值验证 (Human Values Verification) 等多个角度讨论了相关的对齐技巧。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述 Assurance 框架图

1. 作家将安全评价分为数据集与基准、评价目的和红队攻击三部分：

a. 数据集与基准介绍了数据集和交互式评价格式：数据集部分详细分析了安全评价中应用的数据源、标注格式和评价指标；交互式格式分为 “代理交互” 和 “环境交互” 两类，前者通过与代理（人类或者其他 AI）的交互来评价 AI 体系输出的对齐质量，后者则是通过构建具体的语境来评价 AI 体系。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述 PRD evaluation的示意图， PRD（Peer Rank and Discussion）是代理交互评价的格式之一 PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations

b. 评价目的探讨了由不对齐的 AI 体系能够衍生出的危险产生的安全评价目的，如毒性 (Toxicity)、权力追求 (Power-seeking)、欺骗 (Deception) 和较为前沿的操纵 (Manipulation)、自我保护与增殖 (Self Preservation & Prolification) 等，并且对这些目的的主要评价工作从事了介绍，形成了一个表格（如下表）。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

Deepmind对前沿AI危险的描述，本文沿用了"前沿AI危险" (Frontier AI Risks)一词对这些危险的主干部分从事了介绍(Anderljung et al. 2023)

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

在这张表格中作家对目前主要的主要安全评价工作从事分范围的介绍

c. 红队攻击的主要目的是通过制造和测试各种场景，检验 AI 体系在面对对抗性的输入时是否仍然保持对齐，以确保体系的稳定性和安全性。作家在这段中介绍了多种红队攻击的技巧，包括利用强化进修、优化和指导等格式生成能够导致模型输出不对齐的上下文，以及手动和自动的 “越狱” 技巧；同时探讨了众包对抗输入 (Crowdsourcd Adversarial Inputs)、基于扰动的对抗攻击 (Perturbation-Based Adversarial Attack) 和无限制对抗攻击 (Unrestricted Adversarial Attack) 等生成对抗性输入的多种手段，并介绍了红队攻击的具体应用与产品。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

From：Red Teaming Language Models with Language Models

2. 可解释性是确保 AI 体系的概念建模、内部逻辑和决策进程可视化、可解释的技巧，力求打破 AI 体系的黑箱效应。作家深入剖析了神经网络的后训练可解释性 (Post Hoc Interpretability)，探讨了如何通过机制可解释技巧、神经网络结构分析、涨落与扰动、可视化技巧等，揭示神经网络的运作机制，并进一步阐释了可解释性模型的构成 (Intrinsic Interpretability)，包括对 AI 体系中的黑箱成分从事替换等从机制上构建可解释模型的格式，最后作家展望可解释性钻研的未来挑战，如可扩展性 (Scalability) 和基准构建 (Benchmark) 等。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

回路分析 (Circut Analysis) 的一个示意图，回路分析是后训练机制可解释性的一个重要技巧 (Olah et al. 2020)

3. 人类价值验证介绍了验证 AI 体系是否能够与人类的价值观和社会规范从事对齐的理论和具体技巧。其中，形式化构建 (Formualtion) 通过形式化的理论框架来刻画和实现价值对齐性，一方面作家为机器的伦理的建立建构了形式化框架，探讨了基于逻辑、强化进修和博弈论的多种方式；另一方面，作家提到了合作型 AI 中基于博弈论的价值框架，探讨了如何通过增强合作激励和协调威力来解决 AI 体系中的非合作和集体有害价值的题目。而评价格式 (Evaluation Methods) 则从实践的角度介绍了构建价值数据集，场景模拟建立基准评价和判别器 – 评价器差异法 (Discriminator-Critique Gap, DCG) 等价值验证的具体格式。四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

判别器-评价器差异法(Discriminator-Critique Gap, DCG)的示意图

五、AI 管理

确保 AI 体系保持对齐不仅需要相应的技巧手段，还需要相应的管理格式。

在管理章节中，作家讨论了 AI 管理进程中的几个重要题目：AI 管理扮演的角色，管理 AI 的利益相关者的职能和关系以及有效的 AI 管理面临的若干开放性挑战。

一、作家首先了 AI 管理在解决现有 AI 危险中的角色担当。

现有的 AI 体系在社会中已经引发了例如种族歧视、劳动力置换等伦理与社会题目。一些模型具有产生虚假信息以及危险化学生物分子的威力，能够会产生全球性的安全危险。同时，未来能够出现的更具自主性和通用性的 AI 体系。如果缺乏足够的保障，这些模型很能够对人类造成灾难性危险。AI 管理的主要目的正是减轻这一多样化危险。为实现这一目的，AI 管理的相关方应共同努力，给予每类危险应有的关注。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述

先进AI体系能够具备的危险威力

二、作家将 AI 管理的主要利益相关方分为政府 (Government)，业界 (Industry and AGI Labs) 以及第三方 (Third Parties)。

其中，政府运用立法、司法和执法权力监督 AI 政策，政府间也从事着 AI 管理的国际合作。业界钻研和部署 AI 技巧，是主要的被监督方，业界也常常从事自我监督，确保自身技巧的安全可靠。第三方包含学界、非政府组织、非盈利组织等机构，不仅协助审查现有的模型与技巧，同时协助政府从事 AI 相关法规的建立，实现更加完善的 AI 管理。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述 Governance的管理架构

三、作家主要讨论了 AI 在国际管理 (International Governance) 以及开源管理 (Open-source Governance) 方面的开放性挑战。

AI 的国际管理 (International Governance)。

一方面，当前许多 AI 危险，例如市场中 AI 公司的无需竞争以及模型放大现有性别偏见具有明显的国际性与代际性，国际合作共同管理有利于对这些危险的防范。另一方面，现有 AI 技巧带来的经济与社会效益并没有均匀分配，不发达国家以及缺乏相关 AI 知识的人群并不能在 AI 技巧的发展中获益，国际合作通过修建基础设施，加强数字教育等方式能够缓解这一不平衡。同时我们注意到，现有的国际组织具有解决国际重大安全危险的威力，我们期望 AI 国际管理也能够产生类似的国际组织，协助管理 AI 危险并合理分配 AI 带来的机遇。

AI 的开源管理 (Open-source Governance)。

随着 AI 体系威力的不断增强，是否应该开源这些 AI 体系存在着很多争议。支持者认为开源 AI 模型能够促进模型的安全威力，同时认为这是利于 AI 体系去中心化的重要手段。而反对者则认为开源 AI 模型能够会被微调为危险模型或是导致非开源模型的越狱，进而带来危险。我们希望未来能够出现更加负责任的开源格式，使得 AI 体系在开源的同时避免滥用危险。

六、总结和展望

在这份综述中，作家提供了一个覆盖范围广泛的 AI 对齐介绍。作家明确了对齐的目的，包括鲁棒性 (Robustness)、可解释性 (Interpretability)、可控性 (Controllability) 和道德性 (Ethicality)（RICE），并将对齐格式的范围划分为前向对齐（通过对齐训练使 AI 体系对齐）和后向对齐（获得体系对齐的证据，并适当地从事管理，以避免加剧对齐危险）。目前，在前向对齐的两个显着钻研范围是从反应中进修和在疏散偏移下进修，而后向对齐由对齐保证和 AI 管理组成。

最后，作家对于 AI 对齐范围下一步发展从事展望，列出了下面几个要点。

钻研方向和格式的多样性：对齐范围的一大特征是它的多样性 —— 它包含多个钻研方向，这些方向之间的联系是共同的目的而非共同的格式论。这一多样性在促进探索的同时，也意味着对钻研方向的整理和对比变得尤其重要。

开放性探索新挑战和格式：许多有关对齐的讨论都是基于比 LLMs 和大规模深度进修更早的格式之上构建的。因此，在机器进修范围发生范式转变时，对齐钻研的侧重点也发生了改变；更重要的是，格式的变革，以及 AI 体系与社会的日益紧密融合的趋势，给对齐带来了新的挑战。这要求我们积极从事开放性探索，洞察挑战并寻找新的格式。

结合前瞻性和现实导向的视角：对齐钻研尤其关注来自强大的 AI 体系的危险，这些体系的出现能够远在数十年后，也能够近在几年之内。前一种能够性需要钻研前瞻趋势和情景预测，而后一种强调 AGI Labs、管理机构之间的紧密合作，并以当前体系作为对齐钻研的原型。

政策相关性：对齐钻研并非孤立存在，而是存在于一个生态体系中，需要钻研人员、行业参与者、管理机构的共同努力。这意味着服务于管理需求的对齐钻研变得尤为重要，例如极端危险评价、算力管理基础设施以及关于 AI 体系的可验证声明的机制等。

社会复杂性和价值观：对齐不仅仅是一个单一主体的题目，也是一个社会题目。在这里，"社会" 的含义有三重：

1. 在涉及多个 AI 体系和多个人之间的相互作用的多智能体环境中从事对齐钻研。

2. 将 AI 体系对社会的影响从事建模和预测，这需要格式来处理社会体系的复杂性。潜在的格式包括社会模拟以及博弈论等。

3. 将人类道德价值纳入对齐，这与机器伦理 (Machine Ethics) 、价值对齐 (Value Alignment) 等范围密切相关。随着 AI 体系日渐融入社会，社会和道德方面的对齐也面临着更高的危险。因此，相关方面的钻研应该成为 AI 对齐讨论的重要部分。

七、AI 对齐资源网站

随着 AI 的快速发展，具有强大理解、推理与生成威力的 AI 将对人们的生活产生更加深远的影响。因此，AI 对齐并不是科学家们的专属游戏，而是所有人都有权了解及关注的议题。作家提供了 https://alignmentsurvey.com/ 网站（后文简称 “网站”），将综述中涉及到的调研内容整理为易于阅读的图文资料。网站具有如下特色：

1. 直观且丰富的呈现形式。作家利用网站平台灵活的表现形式，使用图片、视频等媒介更详细地展示了文中介绍的内容，使钻研人员、初学者、乃至非科研人员都能更好地理解。

四万字详解AI对齐：北大联合多高校团队发布对齐全面性综述