Meta对Transformer架构下手了：新注意力体制更懂推理

作者表示，这种全新注意力体制（Sytem 2 Attention）或许你也需要呢。大型语言模型（LLM）很强已经是一个不争的现实，但它们有时仍然容易犯一些简单的错误，表现出较弱的推理能力。举个例子，LLM 可能会因不相干的上下文或者输出提醒中固有的偏好或意见做出错误的判断。后一种情况表现出的课题被叫做「曲意逢迎」，即模型与输出保持一致。有没有要领来缓解这类课题呢？有些学者试图通过添加更多监督训练数据或通过强化学习策略来解决，但这些无法从根本上解决课题。近日 Meta 研究者在论文《System 2 Attentio

作者表示，这种全新注意力体制（Sytem 2 Attention）或许你也需要呢。

大型语言模型（LLM）很强已经是一个不争的现实，但它们有时仍然容易犯一些简单的错误，表现出较弱的推理能力。

举个例子，LLM 可能会因不相干的上下文或者输出提醒中固有的偏好或意见做出错误的判断。后一种情况表现出的课题被叫做「曲意逢迎」，即模型与输出保持一致。

有没有要领来缓解这类课题呢？有些学者试图通过添加更多监督训练数据或通过强化学习策略来解决，但这些无法从根本上解决课题。

近日 Meta 研究者在论文《System 2 Attention (is something you might need too)》中认为，根本课题在于 Transformer 本身固有的构建方法，尤其是其注意力体制。也就是说，软注意力既倾向于将概率分配给大部分上下文（包括不相干的部分），也倾向于过度关注重复的 token。

因此，研究者提出了一种完全不同的注意力体制要领，即通过将 LLM 用作一个自然语言推理器来执行注意力。具体来讲，他们利用 LLM 遵循指令的能力，提醒它们生成应该注意的上下文，从而使它们只包孕不会扭曲自身推理的相干资料。研究者将这一过程称为 System 2 Attention（S2A），他们将底层 transformer 及其注意力体制视为类似于人类 System 1 推理的自动操作。

当人们需要特意关注一项任务并且 System 1 可能出错时，System 2 就会分配费力的脑力活动，并接管人类的工作。因此，这一子系统与研究者提出的 S2A 具有类似目标，后者希望通过额外的推理引擎工作来减轻上述 transformer 软注意力的失败。

Meta对Transformer架构下手了：新注意力体制更懂推理

论文地址：https://arxiv.org/pdf/2311.11829.pdf

研究者详细描述了 S2A 体制的类别、提出该体制的动机以及几个具体实现。在实验阶段，他们证实与基于标准注意力的 LLM 相比，S2A 可以产生更讲现实、更少回心转意或曲意逢迎的 LLM。

特别是在课题中包孕干扰性观点的修正后 TriviQA 数据集上，与 LLaMA-2-70B-chat 相比，S2A 将现实性从 62.8% 提高到 80.3%；在包孕干扰性输出情绪的长格式参数生成任务重，S2A 的客观性提高了 57.4%，并且基本上不受插入观点的影响。此外对于 GSM-IC 中带有与主题不相干语句的数学应用题，S2A 将准确率从 51.7% 提高到了 61.3%。

这项研究得到了 Yann LeCun 的推荐。

Meta对Transformer架构下手了：新注意力体制更懂推理