模块化的机器进修体系就够了吗?Bengio师生告诉你答案

Bengio 等研讨者刚「出炉」的预印本论文,探讨了机器进修体系的一个重要方向问题。

深度进修研讨者从神经科学和认知科学中汲取灵感,从隐藏单元、输入方式,到网络连接、网络架构的设计等,许多突破性研讨都鉴于模仿大脑运行策略。毫无疑问,近年来在人工网络中,模块化和注意力经常被组合使用,并取得了令人印象深刻的结果。

事实上,认知神经科学研讨表明,大脑皮层以模块化的方式表示知识,分别模块之间进行通信,注意力机制进行内容选择,这也就是上述提到的模块化和注意力组合使用。在近期的研讨中,有人提出,大脑中的这种通信方式可能对深度网络中的演绎偏置有意义。这些高级变量之间依赖关系的稀少性,将知识分解为尽可能独立的可重组片段,使得进修更有效率。

尽管最近的许多研讨都依赖于这样的模块化体系架构,但研讨者使用了大量的技巧以及体系架构修改,这使得解析真正的、可用的体系架构原则变得具有挑战性。

机器进修体系正逐渐显露出更稀少、更模块化架构的优势,模块化架构不仅具有良好的泛化本能,而且还能带来更好的漫衍外(OoD) 泛化、可扩展性、进修速度和可解释性。此类体系成功的一个关键是,用于真实世界配置的数据天生体系被认为由稀少交互部分组成,赋予模型类似的演绎偏置将是有帮助的。然而,由于这些真实世界的数据漫衍是复杂和未知的,该领域一直缺乏对这些体系进行严格的定量评价。

由来自加拿大蒙特利尔大学的 Sarthak Mittal、Yoshua Bengio、 Guillaume Lajoie 三位研讨者撰写的论文,他们通过简单且已知的模块化数据漫衍,对常见的模块化架构进行了全面评价。该研讨强调了模块化和稀少性的好处,并揭示了在优化模块化体系时面临挑战的见解。一作及通讯作者 Sarthak Mittal 为 Bengio 和 Lajoie 的硕士生。

模块化的机器进修体系就够了吗?Bengio师生告诉你答案

论文地址:https://arxiv.org/pdf/2206.02713.pdf

GitHub 地址:https://github.com/sarthmit/Mod_Arch

具体而言,该研讨扩展了 Rosenbaum 等人的分析,并提出了一种方法来评价、量化和分析模块化架构的常见组成部分。为此,该研讨开发了一系列基准和指标,旨在探索模块化网络的效能。这揭示了有价值的见解,不仅有助于识别当前方法的成功之处,还有助于识别这些方法何时以及如何失败的。

该研讨的贡献可总结为:

该研讨鉴于概率选择端正来开发基准恣意和指标,并用基准和指标来量化模块化体系中的两个重要现象:破产(collapse)和专业化(specialization)。

该研讨提炼出常用的模块化演绎偏置,并通过一系列模型进行体系地评价,这些模型旨在提取常用的架构属性(Monolithic, Modular, Modular-op、GT-Modular 模型)。

该研讨发现,当一个恣意中有很多潜在端正时,模块化体系中的专业化可以显著提高模型本能,但如果只有很少的端正,则不会如此。

该研讨发现,标准的模块化体系在专注于正确信息的能力和专业化能力方面往往都不是最优的,这表明需要额外的演绎偏置。

界说 / 术语

本文中,研讨者探究了一系列模块化体系如何执行常见的恣意,这些恣意由我们称为端正数据的合成数据天生过程制定。他们介绍了关键组成部分的界说,包括(1)端正以及这些端正如何形成恣意,(2)模块以及这些模块如何采用分别的模型架构,(3)专业化以及如何评价模型。详细配置以下图 1 所示。

模块化的机器进修体系就够了吗?Bengio师生告诉你答案

端正。为了正确理解模块化体系并分析它们的优缺点,研讨者考虑采用的综合配置允许对分别的恣意要求进行细粒度的控制。尤其是必须在以下公式 1-3 中展示的数据天生漫衍上进修操作,他们称之为端正。

模块化的机器进修体系就够了吗?Bengio师生告诉你答案

给定上述漫衍,研讨者界说了一个成为其专家的端正,也即端正 r 被界说为 p_y(·|x, c = r) ,其中 c 是表示上下文的分类变量,x 是输入序列。

恣意。恣意是由公式 1-3 中展示的一组端正(数据天生漫衍)描述。分别的{p_y(· | x, c)}_c 集合意味着分别的恣意。其中对于给定数量的端正,研讨者在多个恣意上训练模型以消除任何对特定恣意的偏见。

模块。模块化体系由一组神经网络模块组成,其中每个模块都对整体输出做出贡献。通过以下函数形式可以看出这一点。

模块化的机器进修体系就够了吗?Bengio师生告诉你答案

其中 y_m 表示输出,p_m 表示 m^th 模块的激活。

模型架构。模型架构描述了为模块化体系的每个模块或者单片体系的单个模块选择什么架构。在本文中,研讨者考虑采用了多层感知机(MLP)、多头注意力(MHA)和循环神经网络(RNN)。重要的是,端正(或者数据天生漫衍)进行调整以适用于模型架构,比如鉴于 MLP 的端正。

数据天生过程

由于研讨者的目标是通过合成数据来探究模块化体系,因此他们详细介绍了鉴于上文描述的端正方案的数据天生过程。具体地,研讨者使用了简单的混合专家(MoE)风格的数据天生过程,希望分别的模块可以专门针对端正中的分别专家。

他们解释了适用于三种模型架构的数据天生过程,它们分别是 MLP、MHA 和 RNN。此外,每个恣意下面都有两个版本:回归和分类。

MLP。研讨者界说了适用于鉴于模块化 MLP 体系的进修的数据方案。在这一合成数据天生方案中,一个数据样本包含两个独立的数字以及从一些漫衍中采样的端正选择。分别的端正天生两个数字的分别线性组合以给出输出,也即线性组合的选择是根据端正进行动态实例化,以下公式 4-6 所示。

模块化的机器进修体系就够了吗?Bengio师生告诉你答案

MHA。现在,研讨者界说了针对模块化 MHA 体系的进修而调整的数据方案。因此,他们设计了具有以下属性的数据天生漫衍,即每个端正分别由分别的搜索、检索概念以及检索信息的最终线性组合组成。研讨者在以下公式 7-11 中用数学方法描述了这一过程。

模块化的机器进修体系就够了吗?Bengio师生告诉你答案

RNN。对于循环体系,研讨者界说了一种线性动态体系的端正,其中可以在任何时间点触发多个端正中的一个。在数学上,这一过程中以下公式 12-15 所示。

模块化的机器进修体系就够了吗?Bengio师生告诉你答案

模型

以往一些工作宣称端到端训练的模块体系优于单体体系,尤其是在漫衍式环境中。但是,对于这些模块化体系的好处以及它们是否真的根据数据天生漫衍进行专业化处理还没有详细和深度的分析。

因此,研讨者考虑了四类允许分别程度专业化的模型,它们分别是 Monolithic(单体)、Modular(模块化)、Modular-op 和 GT-Modular。下表 1 展示了这些模型。

模块化的机器进修体系就够了吗?Bengio师生告诉你答案

Monolithic。单体体系是一个大型神经网络,它以整体数据 (x, c) 作为输入,并依此做出预测 y^。体系中显式 baked 的模块化或稀少性没有出现演绎偏置,并完全取决于反向传播来进修解决恣意所需的任何函数形式。

Modular。模块化体系由很多模块组成,每个模块都是给定架构类型(MLP、MHA 或 RNN)的神经网络。每个模块 m 将数据 (x, c) 作为输入,并计算输出 yˆ_m 和置信度分数,跨模块归一化为激活概率 p_m。

Modular-op。模块化操作体系与模块化体系非常相似,仅有一点分别。研讨者没有将模块 m 的激活概率 p_m 定为 (x, c) 的函数,而是确保激活仅由端正上下文 C 决定。

GT-Modular。真值模块化体系作为 oracle 基准,即完美专业化的模块化体系。

研讨者表明,从 Monolithic 到 GT-Modular,模型越来越多地包含模块化和稀少性的演绎偏置。

襟怀

为了可靠地评价模块化体系,研讨者提出了一系列襟怀,不仅可以衡量此类体系的本能优势,还能通过破产和专业化这两种重要的形式进行评价。

本能。第一组评价襟怀鉴于漫衍内和漫衍外(OoD)配置中的本能,反映了分别模型在各种恣意上的表现。对于分类配置,研讨者报告了分类误差;对于回归配置,研讨者报告了损失。

破产。研讨者提出了一组襟怀 Collapse-Avg 和 Collapse-Worst,以此来量化模块化体系遭遇到的破产量(也即模块未充分利用的程度)。下图 2 展示了一个示例,可以看到模块 3 未被使用。

专业化。为了对破产襟怀做出补充,研讨者还提出了以下一组襟怀,即(1)对齐,(2)适应和(3)量化模块化体系获得的专业化程度的逆互信息。

实验

下图表明,GT-Modular 体系在大多数情况下都最优(左)的,这表明专业化是有益处的。我们还看到,在标准端到端训练的模块化体系和 Monolithic 体系之间,前者的表现优于后者但差距不大。这两个饼图共同表明,当前的端到端训练的模块化体系没有实现良好的专业化,因此在很大程度上是次优的。

模块化的机器进修体系就够了吗?Bengio师生告诉你答案

然后,该研讨查看特定架构选择,并分析它们在越来越多的端正中的本能和趋势。 

模块化的机器进修体系就够了吗?Bengio师生告诉你答案

图 4 显示,虽然完美的专业化体系 (GT-Modular) 会带来好处,但典型的端到端训练的模块化体系是次优的,不能实现这些好处,特别是随着端正数量的增加。此外,虽然这种端到端模块化体系的本能通常优于 Monolithic 体系,但通常只有很小的优势。

模块化的机器进修体系就够了吗?Bengio师生告诉你答案

在图 7 中,我们还看到分别模型的训练模式在所有其他配置上的平均值,平均值包含分类错误和回归损失。可以看到,良好的专业化不仅可以带来更好的本能,而且可以加快训练速度。

模块化的机器进修体系就够了吗?Bengio师生告诉你答案

下图显示了两个破产襟怀:Collapse-Avg 、Collapse-Worst。此外下图还显示了针对分别端正数量的分别模型的三个专业化指标,对齐、适应和逆互信息:模块化的机器进修体系就够了吗?Bengio师生告诉你答案

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/mo-kuai-hua-de-ji-qi-jin-xiu-ti-xi-jiu-gou-le-ma-bengio-shi/

(0)
上一篇 2022年 6月 7日 下午2:30
下一篇 2022年 6月 10日 上午11:56

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注