Yann LeCun 表示:Atlas 是一个不太大的说话模型,具有 110 亿参数,在问答和现实核查方面击败了「大家伙」。我们可以将大型说话模型(LLMs)理解为小样本进修者,其能够通过很少的例子就能进修新使命,甚至仅通过简单的说明就能进修,其中对模型参数量和训练数据的大小进行扩展是模型拥有泛化威力的关键。LLMs 的这种提升归功于更强大算力和保存威力。直观上,推理威力的提高会带来更好的泛化,从而减少样本的进修,然而目前还不清楚有效的小样本进修在多大程度上需要大量的模型参数知识。目前为止检索增强模型还没有展示出令人信服的小样本进修威力。论文中,来自 Meta AI Research 等机构的研究者提出小样本进修是否需要模型在其参数中保存大量信息,以及保存是否可以与泛化解耦。他们提出 Atlas,其是检索增强说话模型的一种,拥有很强的小样本进修威力,即使参数量低于目前其它强大的小样本进修模型。模型采用非参数保存,即利用鉴于大型外部非静态知识源上的神经检索器去增强参数说话模型。除了保存威力,此类架构在适应性、可解释性和效率方面都存在优势,因此很有吸引力。论文地址:https://arxiv.org/pdf/2208.03299.pdfAtlas 检索相关文档是鉴于 Contriever 双编码器架构的通用密度检索器,检索文件时鉴于当前上下文检索相关文件。检索到的文档与当前上下文一起交由序列到序列模型处理,该模型利用 Fusion-in-Decoder 架构天生相应的输入。作者研究了不同技术对训练 Atlas 在一系列下游使命(包括问答和现实检查)上的小样本数据集性能的影响。研究发现联合预训练组件对于小样本性能至关重要,作者评估了许多现有和新颖的预训练使命和方案,Atlas 在小样本和资源丰富的环境中都拥有强大的下游性能。在只有 11B 个参数的情况下,Atlas 利用 64 个训练示例在 NaturalQuestions(NQ)上实现了 42.4% 准确率,比 540B 参数模型 PaLM( 39.6% ) 高出近 3 个百分点,在全数据集设置中(Full)达到 64.0% 准确率。
Yann LeCun 表示:Atlas 是一个不太大的说话模型(11B 参数),在问答和现实核查方面击败了「大家伙」。Atlas 主要区别在于它可以从语料库中检索现实。
方法概览Atlas 遵循文本到文本框架。这意味着所有使命的总体框架是:系统以文本盘问作为输入,天生文本输入。例如,在问答使命情况下,盘问对应于问题,模型需要天生答案。在分类使命情况下,盘问对应于文本输入,模型天生类标签,即标签对应的词。图 2 中的 KILT 基准给出了更多下游使命的示例。许多自然说话处理使命需要知识,Atlas 的目标是通过检索增强标准文本到文本模型,因为检索可能对于模型小样本场景下的进修威力至关重要。
架构Atlas 模型鉴于两个子模型:检索器和说话模型。当执行使命时,从问答到天生 Wikipedia 文章,模型首先通过检索器从大型文本语料库中检索前 k 个相关文档。然后,这些文档连同盘问一起作为输入给到说话模型,天生输入。检索器和说话模型都鉴于预训练的 transformer 网络,下面对它们做详细介绍。检索器:Atlas 的检索器模块鉴于 Contriever,这是一种鉴于连续密度嵌入的信息检索技术。Contriever 利用双编码器架构,其中盘问和文档由 transformer 编码器独立嵌入。平均池化应用于最后一层的输入,以获得每一个盘问或文档的向量表示。然后通过计算盘问和每一个文档间的相互嵌入的点积,得到它们的相似度分数。Contriever 模型利用 MoCo 对比损失进行预训练,并且仅利用无监督数据。密度检索器的优点之一是盘问和文档编码器都可以在没有文档注释的情况下利用标准技术(例如梯度下降和蒸馏)进行训练。说话模型:对于说话模型,Atlas 依赖于 T5 序列到序列架构。模型同时也依赖于对序列到序列模型的 Fusion-in-Decoder 修改,并在编码器中独立处理每一个文档。之后模型连接对应于不同文档的编码器的输入,并在解码器中对单个序列执行 cross-attention。模型把盘问连接到编码器中的每一个文档。在说话模型中处理检索到的文档的另一种方法是将盘问和所有文档连接起来,并利用这个长序列作为模型的输入。但这种方法可扩展性较差,即它不会随着文档的数量增多而扩展,因为编码器中的自注意力机制会导致 O(n^2)的时间复杂度(这里 n 是文档数量)。实验结果作者在 NaturalQuestions 和 TriviaQA 这两个开放域问答基准上评估 Atlas。并且分别利用 64 个样例的小样本数据集和完整的训练集,与之前的工作进行比较,详细对比见下表。
NaturalQuestions 和 TriviaQA 的 64-shot 问答中表现最优。特别是它优于更大的模型 (PaLM) 或需要更多训练计算的模型(Chinchilla)。在利用全量的训练集时,Atlas 也能到最优结果,例如把 NaturalQuestions 的准确率从 55.9% 提高到 60.4%。这个结果是在 Atlas 的默认设置下,利用由 CCNet 和 2021 年 12 月 Wikipedia 语料库组成的索引获得的。 下表展示了在现实核查数据集 FEVER 上的测试结果。
Atlas 在 64-shot 情况下,训练样例采样自全量训练集。Atlas 达到了 64.3% 的准确率。而在 15-shot 的情况下,从每一个类中统一采样 5 个样例,与 Gopher 结果比较,Atlas 准确率为 56.2%,比 Gopher 高 5.1 个百分点。在全量训练集上微调 Atlas 模型,达到 78% 的准确率,比 ProoFVer 低 1.5%。ProoFVer 利用专门的架构,用句子级注释训练的检索器,并由维基百科语料库提供与 FEVER 一起发布,而 Atlas 从 CCNet 和 2021 年 12 月的维基百科转储中检索。当给 Atlas 由 FEVER Wikipedia 语料库组成的索引,Atlas 取得了 80.1% 最优水平。为验证 Atlas 的性能,Atlas 在 KILT 进行了评估,KILT 是由几个不同的知识密集型使命组成的基准。下表展示了测试集的结果。
Atlas 64-shot 在实验中远远超过随机算法,甚至与排行榜上的某些经过微调的模型不相上下。如在 FEVER 上,Atlas 64-shot 仅落后 Sphere、SEAL 和 Re2G 2-2.5 分,而在 zero-shot RE 上的表现优于 Sphere 和 SEAL。在全量数据集上,Atlas 在 3 个数据集的表现与最好的模型相差在 3% 以内,但在其余 5 个数据集中是表现最好的。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/24891