基于Transformer的大模型是如何运行的？Meta从全部和上下文进修揭秘

本文旨在更好地理解基于 Transformer 的大型谈话模型（LLM）的内部体制，以提高它们的可靠性和可解释性。

随着大型谈话模型（LLM）在应用和部署方面的不断增加，打开黑箱并了解它们的内部工作原理变得越来越重要。更好地理解这些模型是如何做出决策的，这对改进模型和减轻其故障（如幻觉或推理错误）至关重要。

众所周知，最近 LLM 成功的一个重要因素是它们能够从上下文中进修和推理。LLM 对这些上下文的进修能力通常归功于 Transformer 架构，特别是自注意力块的应用，其能够仔细选择输入序列，进而推理出可信的下一个 token。此外，猜测可能需要全部知识，如语法规则或一般事实，这些可能不会出现在上下文中，需要保存在模型中。

我们不禁会疑问，为什么基于 Transformer 的模型非常擅长应用它们的上下文来猜测新的 token，这种能力是如何在训练中产生的？带着这些问题，来自 Meta AI 的研讨者进行了深入的研讨。他们通过研讨分解设置下 Transformer 的进修体制，揭示了其全部和上下文进修的平衡，并将权重矩阵解释为塑像影象，为理解和优化 Transformer 提供了基础。

基于Transformer的大模型是如何运行的？Meta从全部和上下文进修揭秘

论文地址：https://arxiv.org/pdf/2306.00802.pdf

首先要了解的是在训练过程中 Transformer 是如何发现这些能力的。为此，该研讨引入了一个分解数据集，该数据集由二元谈话模型生成的序列组成。然后，模型需要依靠上下文进修来对特定的二元序列进行良好的猜测，而全部二元可以根据当前 token 的全部统计数据进行猜测。虽然单层的 Transformer 无法可靠地猜测上下文二元，但该研讨发现通过开发感触头（induction head）体制的双层 Transformer 取得了成功，即拥有两个注意力头的 circuit，其允许 Transformer 从上下文 [・・・, a, b,・・・, a] 中猜测 b，并且在 Transformer 谈话模型中似乎无处不在。这种感触头（induction head）体制在 Transformer 谈话模型中是普遍存在的，并且取得了成功。

更进一步的，为了更好的了解上下文体制是怎样出现在训练过程中的，该研讨在随机初始化时冻结了一些层（包括嵌入和值矩阵）来进一步简化模型架构。这样一来研讨重点转移到注意力和前馈体制，同时避免了进修表征的困难。与此同时，这种简化还为单个权重矩阵引入了一个自然模型作为塑像影象。自然模型可以通过它们的外积保存输入 – 输出或键 – 值对嵌入。随机高维嵌入由于其接近正交性而特别适合这种观点。

总结而言，该研讨的贡献可概括为：

本文引入了一种新的分解设置来研讨全部和上下文进修：序列遵循二元谈话模型，其中一些二元在序列中变化，而另一些不会。

本文将 Transformer 的权重矩阵视为进修保存特定嵌入对的塑像影象，并以此为任务推导出一个简化但更可解释的模型。

本文对训练动态进行了细致的实证研讨：首先进修全部二元，然后以自上而下的方式进修适当的影象，形成感触头。

本文给出了训练动力学的理论见解，展示了如何通过在噪声输入中找到信号，在种群损失上进行一些自上而下的梯度步骤来恢复所需的塑像影象。

方法介绍

接着该研讨介绍了分解数据设置，这样能够仔细研讨感触头体制在训练过程中的发展以及 Transformer 如何进修利用上下文信息的。

双元数据模型：模型序列由一个通用的双元谈话模型（即马尔可夫链）组成，每个序列的生成方式如下：

基于Transformer的大模型是如何运行的？Meta从全部和上下文进修揭秘

下图 2 可视化了测试序列上的注意力图，这表明该模型已经进修了感触头体制。

基于Transformer的大模型是如何运行的？Meta从全部和上下文进修揭秘

接着该研讨介绍了 Transformer 塑像影象观点：因为几乎正交的嵌入，权重矩阵表现为塑像影象，将成对的嵌入保存为其外积的加权和。研讨引入了一个具有牢固随机嵌入的简化 Transformer 模型，将用这种想法产生对进修动力学的精确理解。

此外，该研讨提出了一个有用的观点，将 Transformer 中的模型权重视为高维嵌入向量的塑像影象。感触头体制可以通过以下外积矩阵作为影象来获得，而其他所有权重则牢固为随机初始化状态：

基于Transformer的大模型是如何运行的？Meta从全部和上下文进修揭秘

实验

图 3 研讨了在迭代 300 次之前冻结不同层对训练动态的影响。

基于Transformer的大模型是如何运行的？Meta从全部和上下文进修揭秘

全部 vs 上下文进修。从图 4（左 / 右）可以看出，当联合训练所有层时，全部二元统计的进修速度往往比感触头更快，这可以从早期迭代中的 loss 和 KL 的快速下降中看出。

此外，从图 4（左）中看到，数据分布的变化会对上下文体制的进修速度产生重大影响。该研讨观察到以下情况可能会使上下文进修减慢：(i) 较少数量的触发器 K， (ii) 仅应用少有的牢固触发器，以及 (iii) 应用随机触发器而不是牢固触发器。

该研讨还在图 4（中间）中显示，在训练时将输出 token 分布更改为二元分布会降低准确率，这表明，应用更多样化的训练分布可以产生具有更好泛化准确率的模型，并且只需少量的额外训练成本。

基于Transformer的大模型是如何运行的？Meta从全部和上下文进修揭秘

更多研讨内容，请参考原论文。

{{userData.name}}已认证

基于Transformer的大模型是如何运行的？Meta从全部和上下文进修揭秘

数坤科技6周年公开信：关心调理健全产业的全面数字化和智能化

像相机一样变焦、添补画面细节，还能自定义风格，AI作画神器Midjourney又更新了

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

{{userData.name}}已认证

数坤科技6周年公开信：关心调理健全产业的全面数字化和智能化

像相机一样变焦、添补画面细节，还能自定义风格，AI作画神器Midjourney又更新了

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

字节跳动清华AIR成立联合研究中心 推动大模型产学研合作

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

字节跳动清华AIR成立联合研究中心推动大模型产学研合作