深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

激活函数是神经网络模型重要的组成部分,本文作者Sukanya Bag从激活函数的数学原理出发,详解了十种激活函数的优缺点。

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

激活函数(Activation Function)是一种添加到人工神经网络中的函数,旨在帮助网络进修数据中的复杂模式。类似于人类大脑中基于神经元的模型,激活函数最终决定了要发射给下一个神经元的内容。在人工神经网络中,一个节点的激活函数定义了该节点在给定的输入或输入集合下的输入。标准的计算机芯片电路可以看作是根据输入得到开(1)或关(0)输入的数字电路激活函数。因此,激活函数是确定神经网络输入的数学方程式,本文概述了深度进修中常见的十种激活函数及其优缺点。首先我们来了解一下人工神经元的工作原理,大致以下:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

上述过程的数学可视化过程以下图所示:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

1. Sigmoid 激活函数

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

Sigmoid 函数的图像看起来像一个 S 形曲线。函数表达式以下:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

在什么情况下适合使用 Sigmoid 激活函数呢?

Sigmoid 函数的输入规模是 0 到 1。由于输入值限定在 0 到 1,因此它对每个神经元的输入进行了归一化;

用于将预测几率作为输入的模型。由于几率的取值规模是 0 到 1,因此 Sigmoid 函数非常合适;

梯度光滑,避免「跳跃」的输入值;

函数是可微的。这意味着可以找到随便两个点的 sigmoid 曲线的斜率;

明确的预测,即非常靠近 1 或 0。

Sigmoid 激活函数有哪些缺点?

倾向于梯度消失;

函数输入不是以 0 为中心的,这会降低权重更新的效率;

Sigmoid 函数执行指数运算,计算机运行得较慢。

2. Tanh / 双曲正切激活函数

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

tanh 激活函数的图像也是 S 形,表达式以下:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

tanh 是一个双曲正切函数。tanh 函数和 sigmoid 函数的曲线相对相似。但是它比 sigmoid 函数更有一些优势。

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

首先,当输入较大或较小时,输入几乎是光滑的并且梯度较小,这不利于权重更新。二者的区别在于输入间隔,tanh 的输入间隔为 1,并且整个函数以 0 为中心,比 sigmoid 函数更好;

在 tanh 图中,负输入将被强映射为负,而零输入被映射为靠近零。

注意:在一般的二元分类题目中,tanh 函数用于隐藏层,而 sigmoid 函数用于输入层,但这并不是固定的,需要根据特定题目进行调整。3. ReLU 激活函数

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

ReLU 激活函数图像如上图所示,函数表达式以下:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

ReLU 函数是深度进修中较为流行的一种激活函数,相比于 sigmoid 函数和 tanh 函数,它具有以下便宜:

当输入为正时,不存在梯度饱和题目。

计算速度快得多。ReLU 函数中只存在线性关系,因此它的计算速度比 sigmoid 和 tanh 更快。

当然,它也有缺点:

Dead ReLU 题目。当输入为负时,ReLU 完全失效,在正向传播过程中,这不是题目。有些区域很敏感,有些则不敏感。但是在反向传播过程中,如果输入负数,则梯度将完全为零,sigmoid 函数和 tanh 函数也具有相同的题目;

我们发现 ReLU 函数的输入为 0 或正数,这意味着 ReLU 函数不是以 0 为中心的函数。

4. Leaky ReLU它是一种专门设计用于解决 Dead ReLU 题目的激活函数:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

ReLU vs Leaky ReLU为什么 Leaky ReLU 比 ReLU 更好?

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

Leaky ReLU 通过把 x 的非常小的线性分量给予负输入(0.01x)来调整负值的零梯度(zero gradients)题目;

leak 有助于扩大 ReLU 函数的规模,通常 a 的值为 0.01 左右;

Leaky ReLU 的函数规模是(负无穷到正无穷)。

注意:从理论上讲,Leaky ReLU 具有 ReLU 的所有便宜,而且 Dead ReLU 不会有任何题目,但在实际操作中,尚未完全证明 Leaky ReLU 总是比 ReLU 更好。5. ELU 

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

ELU vs Leaky ReLU vs ReLUELU 的提出也解决了 ReLU 的题目。与 ReLU 相比,ELU 有负值,这会使激活的平均值靠近零。均值激活靠近于零可以使进修更快,因为它们使梯度更靠近自然梯度。

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

显然,ELU 具有 ReLU 的所有便宜,并且:

没有 Dead ReLU 题目,输入的平均值靠近 0,以 0 为中心;

ELU 通过减少偏置偏移的影响,使正常梯度更靠近于单位自然梯度,从而使均值向零加速进修;

ELU 在较小的输入下会饱和至负值,从而减少前向传播的变异和信息。

一个小题目是它的计算强度更高。与 Leaky ReLU 类似,尽管理论上比 ReLU 要好,但目前在实践中没有充分的证据表明 ELU 总是比 ReLU 好。6. PReLU(Parametric ReLU)深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点PReLU 也是 ReLU 的改进版本:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

看一下 PReLU 的公式:参数α通常为 0 到 1 之间的数字,并且通常相对较小。

如果 a_i= 0,则 f 变为 ReLU

如果 a_i> 0,则 f 变为 leaky ReLU

如果 a_i 是可进修的参数,则 f 变为 PReLU

PReLU 的便宜以下:

在负值域,PReLU 的斜率较小,这也可以避免 Dead ReLU 题目。

与 ELU 相比,PReLU 在负值域是线性运算。尽管斜率很小,但不会趋于 0。

7. Softmax

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

Softmax 是用于多类分类题目的激活函数,在多类分类题目中,超过两个类标签则需要类成员关系。对于长度为 K 的随便实向量,Softmax 可以将其压缩为长度为 K,值在(0,1)规模内,并且向量中元素的总和为 1 的实向量。

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

Softmax 与正常的 max 函数不同:max 函数仅输入最大值,但 Softmax 确保较小的值具有较小的几率,并且不会直接丢弃。我们可以认为它是 argmax 函数的几率版本或「soft」版本。Softmax 函数的分母结合了原始输入值的所有因子,这意味着 Softmax 函数获得的各种几率彼此相关。Softmax 激活函数的主要缺点是:

在零点不可微;

负输入的梯度为零,这意味着对于该区域的激活,权重不会在反向传播期间更新,因此会产生永不激活的死亡神经元。

8. Swish 

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

函数表达式:y = x * sigmoid (x)Swish 的设计受到了 LSTM 和高速网络中 gating 的 sigmoid 函数使用的启发。我们使用相同的 gating 值来简化 gating 机制,这称为 self-gating。self-gating 的便宜在于它只需要简单的标量输入,而普通的 gating 则需要多个标量输入。这使得诸如 Swish 之类的 self-gated 激活函数能够轻松替换以单个标量为输入的激活函数(例如 ReLU),而无需更改隐藏容量或参数数量。Swish 激活函数的主要便宜以下:

「无界性」有助于防止慢速训练期间,梯度逐渐靠近 0 并导致饱和;(同时,有界性也是有优势的,因为有界激活函数可以具有很强的正则化,并且较大的负输入题目也能解决);

导数恒 > 0;

光滑度在优化和泛化中起了重要作用。

9. Maxout

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

在 Maxout 层,激活函数是输入的最大值,因此只有 2 个 maxout 节点的多层感知机就可以拟合随便的凸函数。单个 Maxout 节点可以解释为对一个实值函数进行分段线性近似 (PWL) ,其中函数图上随便两点之间的线段位于图(凸函数)的上方。

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

Maxout 也可以对 d 维向量(V)实现:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

假设两个凸函数 h_1(x) 和 h_2(x),由两个 Maxout 节点近似化,函数 g(x) 是连续的 PWL 函数。

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

因此,由两个 Maxout 节点组成的 Maxout 层可以很好地近似任何连续函数。

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

10. Softplus

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

Softplus 函数:f(x)= ln(1 + exp x)Softplus 的导数为f ′(x)=exp(x) / ( 1+exp⁡ x )= 1/ (1 +exp(−x )),也称为 logistic / sigmoid 函数。Softplus 函数类似于 ReLU 函数,但是相对较光滑,像 ReLU 一样是单侧抑制。它的接受规模很广:(0, + inf)。原文链接:https://sukanyabag.medium.com/activation-functions-all-you-need-to-know-355a850d025e

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/shen-du-jin-xiu-ling-yu-zui-chang-yong-de-10-ge-ji-huo-han/

(0)
上一篇 2021年 2月 24日 上午10:50
下一篇 2021年 2月 25日 下午2:33

相关推荐

  • 时在中春,阳和方起——机械之心 AI 科技年会本月见

    这是一次注重交换的聚会,所以叫「年会」,没叫「大会」。

    2022年 3月 1日
  • AnchorDx通过鉴于深度进修的连续向量默示甲基化地区

    编辑 | 萝卜皮基准调理(AnchorDx)成立于 2015 年,是一家国内领先的采用甲基化高通量测序进行癌症早筛早诊产物开发的公司。创始人范建兵博士是基因检测畛域的国内领军人物,拥有近 30 年从事人类基因组学、基因芯片(Microarrays)及高通量测序技术开发的经验。基准调理是中国首家将 ctDNA 甲基化高通量测序技术用于肿瘤早诊的企业,并自立构建了全球最大的中国人群癌症初期甲基化数据库。自创立以来,基准调理一直致力于自立开发真正具备临床价值的单癌种、多癌种乃至泛癌种早筛早诊产物,产物管线覆盖了包括肺癌、

    2021年 12月 30日
  • 500万奖金,代码可上太空!华为开发者大赛启动

    2022华为开发者大赛将于6月15日启动,大赛分为云底座和产业两大赛道,包含云使用翻新、代码上太空、世界难题、无人车等7大赛事,总奖金额将达500万。其中,华为云联合北京邮电大学等合作单位共同发起“代码上卫星”活动,面向广大开发者征集能适用于卫星的翻新使用,入选作品将有机会通过华为云和北邮联合设计的全球首个“云原生卫星盘算平台”布局到“天年星座”计划的多颗卫星中,完成“星海畅游”。“代码上太空”旨

    2022年 6月 13日
  • 道阻且长,行则将至 | 安远AI x 机器之心系列讲座圆满结束

    历时一个月,安远AI与机器之心联合举办的「迈向危险、靠得住、可控的人工智能」六场系列讲座圆满结束,我们邀请了全球顶尖人工智能机构专家分享强化学习、预训练大模型、通用人工智能等内容。这六位专家分享了他们的真知灼见,并对人工智能与人类的将来展现出忧虑与希望:第1期:「寻找AGI的危险路径 」不精确的微调或方针的错误泛化可能会导致AGI追求一个不精确的方针。如果足够智能,这种未对齐(unaligned)的AGI将导致灾难性的前因。 —DeepMind研讨科学家Rohin Shah第2期:「人类与AI的

    2022年 8月 9日
  • AAAI 2021 | 投票的滑润复杂度

    本文是第三十五届人工智能大会(AAAI 2021)入选论文《The Smoothed Complexity of Computing Kemeny and Slater Rankings》的解读。

    2022年 7月 18日
  • 服务量化投资,基于学问图谱的事宜表征框架钻研入选SIGIR

    瞰点科技和上海交大的钻研团队提出了一种服务于量化投资的基于学问图谱的事宜表征框架,称为 Knowledge Graph-based Event Embedding Framework(KGEEF)。通过在真实股票市场上进行的大规模实行表明,本文提出的格式显著有助于量化投资的政策提升。

    2021年 8月 22日
  • 当春乃发「声」,呆板之心AI科技年会高朋揭晓

    时在中春,阳和方起。呆板之心「AI科技年会」将于3月23日举办。本次活动分为三场论坛:人工智能论坛、AI x Science 论坛和首席智行官大会。由于疫情原因,「人工智能论坛」与「AI x Science 论坛」转为线上直播;「首席智行官大会」仍在北京线下举办。「人工智能论坛」直播地址:http://live.bilibili.com/3519835「AI x Science 论坛」直播地址:http://live.bilibili.com/24531944「首席智行官大会」线下报名地址:http://hdxu.

    2022年 3月 10日
  • 中原基金与澜舟科技成立金融NLP联合实验室,共促金融科技立异

    近日,境内头部基金公司中原基金与NLP/AI范畴领先者北京澜舟科技签署战略协作协议,成立金融NLP(自然语言处置惩罚)联合实验室,协作探索自然语言处置惩罚技巧在金融范畴的使用;协作建立鉴于中原基金投资研究逻辑的舆情NLP本领;协作打造鉴于深度学习和预训练模型的金融行业搜索引擎,同时计划在其他数字化建立、立异技巧协作、交易使用等方面展开协作。中原基金首席数据官陈一昕,澜舟科技创始人兼首席执行官周明博士分别代表双方在北京签约。中原基金首席数据官陈一昕表示,科技立异是发展数字经济的核心源动力。金融行业如何促进科技与金融交易场景的

    2022年 6月 6日
  • Stability AI联合Morph AI共同发布一体式AI视频创作对象,助力手艺的落地与利用

    2024年2月28日,Stability AI在其官方社交账号上宣布与领先的text-to-video公司Morph AI告竣分工,双方基于各自的模型优势,共同推出了一款all-in-one(一体式AI视频创作)的创造对象——MorphStudio。该对象将颠覆保守视频创造过程,具备了让创作者可以在一个界面中完成天生、剪辑和后期等的便利功能,支持创作者调用AI模型选择每一个镜头并达到最佳效果。较保守视频创造过程而言,该对象可以极小的帮助创作者缩短创作时间,降低创作成本。与此同时,在双方的创作者社区中,每一个创作者都

    2024年 3月 1日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注