NeurIPS 2022 会议正在如火如荼地从事之中,各路专家学者围绕着深度进修、算计机视觉、大规模机器进修、进修理论、优化、稀疏理论等众多细分领域展开交流与探讨。会上,图灵奖得主、深度进修先驱 Geoffrey Hinton 被邀请发表讲演,以表彰他十年前与其研究生 Alex Krizhevsky 和 Ilya Sutskever 共同撰写的论文《ImageNet Classification with Deep Convolutional Neural Networks》,该论文因对该领域的「巨大影响」而被授予时间检验奖。这项工作发表于 2012 年,是卷积神经收集首次在 ImageNet 图象识别竞赛中表现人类水平的能力,它是启动第三次人工智能浪潮的关键事件。Hinton 此次讲演的主题为《The Forward-Forward Algorithm for Training Deep Neural Networks》。在讲演中,Geoffrey Hinton 表示,「机器进修研究社区在意识到深度进修对算计机构建方式的影响上一直表现缓慢。」他认为,人工智能的机器进修形式将引发算计机系统的变革,这是一种将 AI「放入你的烤面包机」的新型软硬结合。他继续说到,「我认为我们将看到一种完全分别的算计机,虽然几年内无法实现。但我们有充分的理由来研究这种完全分别的算计机。」
构建完全分别的新型算计机迄今为止,所有的数字算计机都被构建为「不朽」(immortal),其中硬件设计非常可靠,以便相同的软件可以在任何地方运行。「我们可以在分别的物理硬件上运行相同的步调,知识是不朽的。」Hinton 表示,这种设计要求意味着数字算计机已经错过了「硬件的各种可变、随机、不稳定、仿照和不可靠特性」,而这些特性可能对我们非常有用。在 Hinton 看来,未来的算计机系统将采取分别的方式:它们将是「神经形态的」,并且是通俗的(mortal)。这意味着每台算计机都将是神经收集软件与杂乱无章硬件的紧密结合,在具有仿照而非数字元件的意义上,它可以包含不确定性因素并随时间推移而发展。
Hinton 解释到,「现在的替代方案是我们将放弃硬件与软件的分离,但算计机科学家真的不喜欢这种做法,因为攻击到了他们的基本原则之一。」所谓的通俗算计(mortal computation),就是系统进修到的知识和硬件是密不可分的。这些通俗算计机可以「成长」,摆脱造价高昂的芯片制造厂。Hinton 指出,如果我们这样做了,就可以应用功耗极低的仿照算计,还能应用忆阻器权重来从事万亿次并行处理。这里指的是一种基于非线性电路元件、拥有数十年历史的实验芯片。此外我们还可以在不了解分别位硬件的精确行为的精准质量时发展硬件。但是,Hinton 也表示,新的通俗算计机并不会取代传统的数字算计机,「它不是掌控你的银行账户的算计机,也不会确切知道你有多少钱。」这种算计机用于放置(即处理)其他东西,比如它可以应用一美元将 GPT-3 之类的东西「放入你的烤面包机中」,这样只需几瓦的功率,就可以与自己的烤面包机对话。
适合通俗算计硬件的 FF 收集 在这次讲演中,Hinton 花了大部分时间谈论一种新的神经收集方法,他称之为 Forward-Forward(FF)收集,它取代了几乎所有神经收集中应用的反向流传技术。Hinton 提出,通过去除反向流传,前向收集可能更合理地接近现实生活中在大脑中发生的情况。这篇论文草稿被张贴在多伦多大学的 Hinton 主页上:
论文链接:https://www.cs.toronto.edu/~hinton/FFA13.pdfHinton 表示,FF 方法可能更适合通俗的算计硬件。「当前如果要实现这样的事情,我们必须有一个将在专属硬件中运行的进修步调,必须要进修利用该专属硬件的具体属性,而不知道所有这些属性是什么。但我认为前向算法是一个有潜力的选项。」他说,建造新的仿照算计机的一个障碍是,人们对在数百万台设备上运行一个软件的可靠性很重视。「这些手机中的每一部都必须从一个婴儿手机开始取代,而且它必须进修如何成为一部手机,」Hinton 说。「而这是非常痛苦的。」即使是最擅长相关技术的工程师,也会因为担心不确定性,而迟迟不能放弃完美的、相同的不朽算计机的范式。Hinton 说:「在对仿照算计感兴趣的人中,仍有极少数人愿意放弃不朽。这是因为对一致性、可预测性的依恋。但如果你希望仿照硬件每次都做同样的事情,你迟早因为这些杂乱的东西遇到真正的问题。」论文内容在论文中,Hinton 介绍了一种新的神经收集进修步调,并通过实验证明它在一些小问题上的效果足够好。具体内容如下:反向流传有什么问题?过去十年,深度进修的成功确立了在大量参数和大量数据的情况下执行随机梯度下降的有效性。梯度通常是通过反向流传来算计的,这导致人们对大脑是否实现了反向流传或是否有其他方式来获得调整连接权重所需的梯度产生了兴趣。作为大脑皮层如何进修的模型,反向流传仍然是不可信的,尽管人们做出了相当大的努力来让它像真实的神经元一样实施。目前没有令人信服的证据表明大脑皮层明确地流传误差导数或储存神经活动,以便在随后的反向流传中应用。从一个皮层区域到视觉通路中较早的区域的自上而下的连接并不像预期的那样,即如果在视觉系统中应用反向流传,就会出现自下而上的连接。相反,它们形成了循环,其中神经活动经过两个区域的大约半打皮质层,然后回到它开始的地方。通过时间的反向流传作为进修序列的一种方式是特别不靠谱的。为了处理感官输入流而不频繁超时,大脑须要通过感官处理的分别阶段对感官数据从事 pipeline 处理,它须要一个能「在飞行中」进修的进修步调。Pipeline 后期阶段的表征可能提供自上而下的信息,在后续的时间步中影响 pipeline 早期阶段的表征,但感知系统须要实时地从事推理和进修,而不须要停止执行反向流传。反向流传的另一个严重限制是,它须要完全了解在前向流传中从事的算计,以便算计出正确的导数。如果我们在前向流传中插入一个黑匣子,那么就不可能再从事反向流传,除非我们进修了黑匣子的可微分模型。正如我们将看到的,黑匣子根本不会改变 FF 算法的进修步调,因为不须要通过它从事反向流传。在没有完美的前向流传模型的情况下,或许能求助于许多形式的加强进修之一。这个想法是对权重或神经活动从事随机扰动,并将这些扰动与收益函数的变化联系起来。但加强进修步调存在高变异性:当许多其他变量同时被扰动时,很难看到扰动一个变量的效果。为了平均化所有其他扰动造成的噪音,进修率须要与被扰动的变量数量成反比,这意味着加强进修的规模很差,对于包含数百万或数十亿参数的大型收集,无法与反向流传竞争。这篇论文的主要观点是,含有未知非线性的神经收集不须要借助于加强进修。FF 算法的速度与反向流传相当,但它的优点是可以在正向算计的精确细节未知时应用。它的优势还在于可以在通过神经收集对顺序数据从事流水作业时从事进修,而不须要储存神经活动或停止流传误差导数。总体来说,FF 算法比反向流传要慢一些,而且在本文研究的几个 toy problem 上,它的归纳性也不太理想,所以在功率不太受限的应用中,它不太可能取代反向流传。对于在非常大的数据集上训练的非常大的模型,这类探索将继续应用反向流传。FF 算法在两个方面可能优于反向流传,一是作为大脑皮层的进修模型,二是作为应用非常低功率的仿照硬件而不须要借助于加强进修。FF 算法Forward-Forward 算法是一种贪婪的多层进修步调,其灵感来自玻尔兹曼机和噪声对比估计。思路是用两个前向流传代替反向流传的前向和后向流传,这两个前向流传又以完全相同的方式彼此运算,但在分别的数据上,目标也相反。其中,positive 流传在真实数据上运算,并调整权重以增加每个潜藏层的优点(goodness);negative 流传在 negative 数据上运算,并调整权重以减少每个潜藏层中的优点。在论文中,Hinton 通过在 CIFAR-10 上的实验展示了 FF 算法的性能。CIFAR-10 有 50000 幅训练图象,这些图象为 32 x 32 像素大小,每个像素有三个颜色通道。因此,每幅图象有 3072 个维度。这些图象的背景很复杂,变化很大,在如此有限的训练数据下无法很好地建模。一般来说,有两到三个潜藏层的全连接收集在用反向流传法训练时,除非潜藏层非常小,否则过拟合效果很差,所以几乎所有的报告结果都是卷积收集。由于 FF 的目的是用于权重共享不可行的收集,所以将它与反向流传收集从事了比较,后者应用局部感受野来限制权重的数量,而不过于限制潜藏单元的数量。其目的只是为了表明,在有大量潜藏单元的情况下,对于包含高度可变背景的图象,FF 的性能与反向流传相当。表 1 显示了用反向流传和 FF 训练收集的测试性能,这两种方法都应用了权重衰减来减少过拟合。
更多研究细节,可参考原论文。参考链接:https://www.zdnet.com/article/we-will-see-a-completely-new-type-of-computer-says-ai-pioneer-geoff-hinton-mortal-computation/"Mortal computation" means analog computers marrying AI closely to hardware will put GPT-3 in your toaster for $1 running on a few watts of power.
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/30688