具有生物启发训练步骤的物理深度进修:物理硬件的无梯度步骤

编辑 | 绿萝对人工智能不断增长的需求推动了对鉴于物理设备的非常规估计的钻研。虽然此类估计设备模仿了大脑启发的仿照信息处置,但进修过程仍然依赖于为数字处置优化的步骤,例如反向传播,这不适合物

编辑 | 绿萝

对人工智能不断增长的需求推动了对鉴于物理设备的非常规估计的钻研。虽然此类估计设备模仿了大脑启发的仿照信息处置,但进修过程仍然依赖于为数字处置优化的步骤,例如反向传播,这不适合物理完成。

在这里,来自日本 NTT 设备技术实验室(NTT Device Technology Labs)和东京大学的钻研团队通过扩大一种称为直接反馈对齐(DFA)的受生物学启发的训练算法来展示物理深度进修。与原始算法不同,所提出的步骤鉴于具有替代非线性激活的随机投影。因此,可以在不了解物理体系及其梯度的情况下训练物理神经搜集。此外,可以在可扩大的物理硬件上仿照此训练的估计。

钻研人员应用称为深储层估计机的光电递归神经搜集示范了概念验证。证实了在基准测试中具有竞争本能的加快估计的潜力。钻研结果为神经形态估计的训练和加快提供了实用的解决方案。

该钻研以「Physical deep learning with biologically inspired training method: gradient-free approach for physical hardware」为题,于 2022 年 12 月 26 日发布在《Nature Communications》上。

图片

物理深度进修

鉴于人工神经搜集 (ANN) 的机器进修在图像处置、语音识别、游戏等方面的破纪录表现成功展示了其卓越的能力。尽管这些算法类似于人脑的工作方式,但它们基本上是应用传统的冯诺依曼估计硬件在软件层面上完成的。然而,这种鉴于数字估计的人工神经搜集面临着能耗和处置速度方面的问题。这些问题促使应用替代物理平台完成人工神经搜集。

有趣的是,即使是被动物理动力学也可以用作随机连接的 ANN 中的估计资源。该框架被称为物理储层估计机(RC)或极限进修机(ELM),其易于完成极大地扩大了可完成材料的选择及其利用范围。这种物理完成的神经搜集 (PNN) 能够将特定任务的估计负载外包给物理体系。

构建更深层次的物理搜集是进一步提高本能的一个有前途的方向,因为它们可以以指数方式扩大搜集表达能力。这激发了应用各种物理平台的深度 PNN 的提议。他们的训练基本上依赖于一种称为反向传播(BP)的步骤,该步骤在鉴于软件的 ANN 中取得了巨大成功。但是,BP 在以下方面不适用于 PNN。首先,BP 操作的物理完成仍然复杂且不可扩大。其次,BP 需求对整个物理体系有准确的了解。此外,当我们将 BP 利用于 RC 时,这些要求破坏了物理 RC 的独特特性,即我们需求准确地了解和仿照黑盒物理随机搜集。

与 PNN 中的 BP 一样,BP 在生物神经搜集中的操作难度也被脑科学界指出;BP 在大脑中的合理性一直受到质疑。这些考虑促使开发了生物学上合理的训练算法。

近期一个有前途的方向是直接反馈对齐 (DFA)。在该算法中,采用最终输出层误差信号的固定随机线性变换来代替反向误差信号。因此,这种步骤不需求误差信号的逐层传播或权重的知识。此外,据报道,DFA 可扩大到现代大型搜集模型。这种以生物学为动机的训练的成功表明,有一种比 BP 更合适的步骤来训练 PNN。然而,DFA 仍然需求非线性函数 f(x) 的导数 f'(a) 进行训练,这阻碍了 DFA 步骤在物理体系中的利用。因此,DFA 的更大幅度扩大对于 PNN 利用很重要。

DFA 及其对物理深度进修的加强

在此,钻研人员通过加强 DFA 算法来示范物理深度进修。在加强 DFA 中,用任意非线性 g(a) 替换标准 DFA 中物理非线性激活 f'(a) 的微分,并表明本能对 g(a) 的选择具有稳健性。由于这种加强,不再需求准确地仿照 f'(a)。由于所提出的步骤鉴于具有任意非线性激活的并行随机投影,可以按照与物理 ELM 或 RC 概念相同的方式在物理体系上执行训练估计。这使得推理和训练的物理加快成为可能。

图片

图:PNN 的概念及其通过 BP 和加强 DFA 进行的训练。(来源:论文)

为了示范概念验证,钻研人员构建了一个 FPGA 辅助的光电深度物理 RC 作为工作台。尽管 benchtop 简单易用,仅需软件级更新即可利用于各种物理平台,但完成了可与大型复杂的最先进体系相媲美的本能。

图片

图:具有加强 DFA 训练的光电深度 RC 体系。(来源:论文)

此外,还比较了整个处置时间,包括数字处置的时间,发现了训练过程物理加快的可能性。

图片

图:光电深 RC 体系的本能。(来源:论文)

RC 工作台的处置时间预算细分如下:FPGA 处置(数据传输、内存分配和 DAC/ADC)约为 92%;约 8% 的数字处置用于预处置/后处置。因此,在当前阶段,处置时间主要由 FPGA 和 CPU 上的数字估计决定。这是因为光电工作台仅应用一条非线性延迟线完成了一个储层;这些限制可以通过在未来应用完全并行和全光估计硬件来放宽。可以看出,CPU 和 GPU 上的估计针对节点数显示了 O(N^2) 趋势,而 benchtop 显示了 O(N),这是由于数据传输瓶颈造成的。

对于 BP 和加强 DFA 算法,CPU 之外的物理加快度分别在 N ~5,000 和 ~12,000 处被观察到。然而,就估计速度而言,由于 GPU 的内存限制,尚未直接观察到针对 GPU 的有效性。通过推断 GPU 趋势,可以在 N ~80,000 时观察到超过 GPU 的物理加快。据我们所知,这是对整个训练过程的首次比较,也是首次应用 PNN 进行体能训练加快示范。

为了钻研所提步骤对其他体系的适用性,应用广泛钻研的光子神经搜集进行了数值仿照。此外,实验证明的鉴于延迟的 RC 被证明非常适合各种物理体系。关于物理体系的可扩大性,构建深度搜集的主要问题是其固有噪声。通过数值仿照钻研了噪声的影响。发现该体系对噪声具有稳健性。

所提出步骤的可扩大性和局限性

在这里,考虑了鉴于 DFA 的步骤对更现代模型的可扩大性。实际深度进修最常用的模型之一是深度连接的卷积神经搜集 (CNN)。然而,据报道,DFA 算法很难利用于标准 CNN。因此,所提出的步骤可能难以以简单的方式利用于卷积 PNN。

考虑到仿照硬件完成,对 SNN 的适用性也是一个重要主题。已经报道了鉴于 DFA 的训练对 SNN 的适用性,这意味着该钻研所提出的加强 DFA 可以使训练更容易。

虽然鉴于 DFA 的算法有可能扩大到比简单的 MLP 或 RC 更实用的模型,但将鉴于 DFA 的训练利用于此类搜集的有效性仍然未知。在这里,作为这项钻研的额外工作,钻研了鉴于 DFA 的训练(DFA 本身和加强的 DFA)对上述模型(MLP-Mixer、Vision transformer (ViT)、ResNet 和 SNN)的可扩大性。钻研发现鉴于 DFA 的训练即使对于探索的实用模型也是有效的。虽然鉴于 DFA 的训练可达到的准确度基本上低于 BP 训练,但对模型和/或算法进行一些调整可以提高本能。值得注意的是,对于所有探索的实验设置,DFA 和加强 DFA 的准确性都具有可比性,这表明 DFA 本身的进一步改进将直接有助于改进加强 DFA。结果表明,该步骤可扩大到未来对 PNN 的实用模型的完成,而不仅仅是简单的 MLP 或 RC 模型。

表 1:加强 DFA 对实际搜集模型的适用性。(来源:论文)

图片

物理硬件中的 BP 与 DFA

一般来说,BP 在物理硬件上完成起来非常困难,因为它需求估计图中的所有信息。因此,物理硬件的训练一直是通过估计仿照来完成的,这会产生大量的估计成本。此外,模型与实际体系之间的差异导致精度下降。相反,加强的 DFA 不需求关于物理体系的准确先验知识。因此,在深度 PNN 中,鉴于 DFA 的步骤在准确性方面比鉴于 BP 的步骤更有效。此外,可以应用物理硬件加快估计。

此外,DFA 训练不需求逐层估计的顺序误差传播,这意味着每一层的训练可以并行执行。因此,更优化和并行的 DFA 完成可能会带来更显着的加快。这些独特的特征表明鉴于 DFA 的步骤的有效性,特别是对于鉴于物理硬件的神经搜集。另一方面,加强 DFA 训练的模型的准确性仍然不如 BP 训练的模型。进一步提高鉴于 DFA 的训练的准确性仍然是未来的工作。

进一步的物理加快

物理完成证实了具有大节点(large-node)数的 RC 循环处置的加快。但是,它的优势仍然有限,需求进一步改进。当前原型的处置时间表示为 FPGA 的数据传输和内存分配。因此,将所有过程集成到 FPGA 中将大大提高本能,但会牺牲实验灵活性。此外,将来,机载光学步骤将大大降低传输成本。大规模光集成和片上集成将进一步提升光估计本身的本能。

论文链接:https://www.nature.com/articles/s41467-022-35216-2

原创文章,作者:ScienceAI,如若转载,请注明出处:https://www.iaiol.com/news/26608

(0)
上一篇 2022年12月27日 下午2:46
下一篇 2022年12月29日 下午12:23

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注