在了解通用类似定理之前,你可能都不会了解神经收集

通用类似定理很好地解释了为什么神经收集能工作以及为什么它们经常不起作用。

此前,图灵奖得主、深度学习先驱 Yann LeCun 的一条推文引来众多网友的讨论。

在该推文中,LeCun 表示:「深度学习并不像你想象的那么令人印象深刻,因为它仅仅是通过曲线拟合产生的插值结果。但在高维空间中,不存在插值这样的情况。在高维空间中,一切都是外推。」

在了解通用类似定理之前,你可能都不会了解神经收集

而 LeCun 转发的内容来自哈佛认知科学家 Steven Pinker 的一条推文,Pinker 表示:「 通用类似定理很好地解释了为什么神经收集能工作以及为什么它们经常不起作用。只有了解了 Andre Ye 的通用类似定理,你才能了解神经收集。」

在了解通用类似定理之前,你可能都不会了解神经收集

Pinker 所提到的 Andre Ye,正是接下来要介绍《You Don’t Understand Neural Networks Until You Understand the Universal Approximation Theorem》文章的作者。虽然该文章是去年的,但在了解神经收集方面起到非常重要的作用。

在人工神经收集的数学理论中, 通用类似定理(或称万能类似定理)指出人工神经收集类似随意率性函数的能力。通常此定理所指的神经收集为前馈神经收集,并且被类似的目标函数通常为输出输出都在欧几里得空间的连续函数。但亦有研究将此定理扩展至其他类型的神经收集,如卷积神经收集、放射状基底函数收集、或其他特殊神经收集。

此定理意味着神经收集可以用来类似随意率性的庞杂函数,并且可以达到随意率性类似精准度。但它并没有告诉我们如何选择神经收集参数(权重、神经元数量、神经层层数等等)来达到我们想类似的目标函数。

1989 年,George Cybenko 最早提出并证明了单一暗藏层、随意率性宽度、并利用 S 函数作为激励函数的前馈神经收集的通用类似定理。两年后 1991 年,Kurt Hornik 研究发现,激活函数的选择不是关键,前馈神经收集的多层神经层及多神经元架构才是使神经收集有成为通用贴近器的关键。

最重要的是,该定了解释了为什么神经收集似乎表现得如此聪明。了解它是发展对神经收集深刻了解的关键一步。

更深层次的探索

紧凑(有限、封闭)集合上的任何连续函数都可以用分段函数贴近。以 – 3 和 3 之间的正弦波为例,它可以用三个函数来类似——两个二次函数和一个线性函数,如下图所示。

在了解通用类似定理之前,你可能都不会了解神经收集

然而,Cybenko 对这个分段函数描述更为具体,因为它可以是恒定,本质上通过 step 来拟合函数。有了足够多的恒定域 (step),我们就可以在给定的范围内合理地估计函数。

在了解通用类似定理之前,你可能都不会了解神经收集

基于这种类似,我们可以将神经元当做 step 来构建收集。利用权值和偏差作为「门」来确定哪个输出下降,哪个神经元应该被激活,一个有足够数量神经元的神经收集可以简略地将一个函数划分为几个恒定区域来估计。

对于落在神经元下降部分的输出信号,通过将权重放大到较大的值,最终的值将接近 1(当利用 sigmoid 函数计算时)。如果它不属于这个部分,将权重移向负无穷将产生接近于 0 的最终结果。利用 sigmoid 函数作为某种处理器来确定神经元的存在程度,只要有大量的神经元,任何函数都可以近乎完美地类似。在多维空间中,Cybenko 推广了这一思想,每一个神经元在多维函数中控制空间的超立方体。

通用类似定理的关键在于,它不是在输出和输出之间建立庞杂的数学关系,而是利用简略的线性操作将庞杂的函数分割成许多小的、不那么庞杂的部分,每一个部分由一个神经元处理。

在了解通用类似定理之前,你可能都不会了解神经收集

自 Cybenko 的初始证明以后,学界已经形成了许多新的改进,例如针对不同的激活函数(例如 ReLU),或者具有不同的架构(循环收集、卷积等)测试通用类似定理。

不管怎样,所有这些探索都围绕着一个想法——神经收集在神经元数量中找到优势。每一个神经元监视特征空间的一个模式或区域,其大小由收集中神经元的数量决定。神经元越少,每一个神经元需要监视的空间就越多,因此类似能力就会下降。但是,随着神经元增多,无论激活函数是什么,任何函数都可以用许多小片段拼接在一起。

泛化和外推

有人可能指出,通用类似定理虽然简略,但有点过于简略(至少在概念上)。神经收集可以分辨数字、生成音乐等,并且通常表现得很智能,但实际上只是一个庞杂的贴近器。

神经收集旨在对给定的数据点,能够建模出庞杂的数学函数。神经收集是个很好的贴近器,但是,如果输出超出了训练范围,它们就失去了作用。这类似于有限泰勒级数类似,在一定范围内可以拟合正弦波,但超出范围就失效了。

在了解通用类似定理之前,你可能都不会了解神经收集

外推,或者说在给定的训练范围之外做出合理预测的能力,这并不是神经收集设计的目的。从通用类似定理,我们了解到神经收集并不是真正的智能,而是暗藏在多维度伪装下的估计器,在二维或三维中看起来很普通。

定理的实际意义

当然,通用贴近定理假设可以继续向无穷大添加神经元,这在实践中是不可行的。此外,利用神经收集近乎无限的参数组合来寻找性能最佳的组合也是不切实际的。然而,该定理还假设只有一个暗藏层,并且随着添加更多暗藏层,庞杂性和通用贴近的潜力呈指数增长。

取而代之的是,机器学习工程师依据直觉和经验决定了如何构造适合给定问题的神经收集架构,以便它能够很好地贴近多维空间,知道这样一个收集的存在,但也要权衡计算性能。

给TA打赏
共{{data.count}}人
人已打赏
AI

UT Austin朱玉可主讲,CS391R 2021秋季课程上线,专注呆板人感知与决策

2021-9-7 14:28:00

AI

特斯拉8月在华销量首破4万台,或已达产能极限

2021-9-9 18:51:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索