深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

激活函数是神经网络模型重要的组成部分,本文作者Sukanya Bag从激活函数的数学原理出发,详解了十种激活函数的优缺点。

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

激活函数(Activation Function)是一种添加到人工神经网络中的函数,旨在帮助网络进修数据中的复杂模式。类似于人类大脑中基于神经元的模型,激活函数最终决定了要发射给下一个神经元的内容。在人工神经网络中,一个节点的激活函数定义了该节点在给定的输入或输入集合下的输入。标准的计算机芯片电路可以看作是根据输入得到开(1)或关(0)输入的数字电路激活函数。因此,激活函数是确定神经网络输入的数学方程式,本文概述了深度进修中常见的十种激活函数及其优缺点。首先我们来了解一下人工神经元的工作原理,大致以下:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

上述过程的数学可视化过程以下图所示:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

1. Sigmoid 激活函数

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

Sigmoid 函数的图像看起来像一个 S 形曲线。函数表达式以下:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

在什么情况下适合使用 Sigmoid 激活函数呢?

Sigmoid 函数的输入规模是 0 到 1。由于输入值限定在 0 到 1,因此它对每个神经元的输入进行了归一化;

用于将预测几率作为输入的模型。由于几率的取值规模是 0 到 1,因此 Sigmoid 函数非常合适;

梯度光滑,避免「跳跃」的输入值;

函数是可微的。这意味着可以找到随便两个点的 sigmoid 曲线的斜率;

明确的预测,即非常靠近 1 或 0。

Sigmoid 激活函数有哪些缺点?

倾向于梯度消失;

函数输入不是以 0 为中心的,这会降低权重更新的效率;

Sigmoid 函数执行指数运算,计算机运行得较慢。

2. Tanh / 双曲正切激活函数

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

tanh 激活函数的图像也是 S 形,表达式以下:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

tanh 是一个双曲正切函数。tanh 函数和 sigmoid 函数的曲线相对相似。但是它比 sigmoid 函数更有一些优势。

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

首先,当输入较大或较小时,输入几乎是光滑的并且梯度较小,这不利于权重更新。二者的区别在于输入间隔,tanh 的输入间隔为 1,并且整个函数以 0 为中心,比 sigmoid 函数更好;

在 tanh 图中,负输入将被强映射为负,而零输入被映射为靠近零。

注意:在一般的二元分类题目中,tanh 函数用于隐藏层,而 sigmoid 函数用于输入层,但这并不是固定的,需要根据特定题目进行调整。3. ReLU 激活函数

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

ReLU 激活函数图像如上图所示,函数表达式以下:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

ReLU 函数是深度进修中较为流行的一种激活函数,相比于 sigmoid 函数和 tanh 函数,它具有以下便宜:

当输入为正时,不存在梯度饱和题目。

计算速度快得多。ReLU 函数中只存在线性关系,因此它的计算速度比 sigmoid 和 tanh 更快。

当然,它也有缺点:

Dead ReLU 题目。当输入为负时,ReLU 完全失效,在正向传播过程中,这不是题目。有些区域很敏感,有些则不敏感。但是在反向传播过程中,如果输入负数,则梯度将完全为零,sigmoid 函数和 tanh 函数也具有相同的题目;

我们发现 ReLU 函数的输入为 0 或正数,这意味着 ReLU 函数不是以 0 为中心的函数。

4. Leaky ReLU它是一种专门设计用于解决 Dead ReLU 题目的激活函数:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

ReLU vs Leaky ReLU为什么 Leaky ReLU 比 ReLU 更好?

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

Leaky ReLU 通过把 x 的非常小的线性分量给予负输入(0.01x)来调整负值的零梯度(zero gradients)题目;

leak 有助于扩大 ReLU 函数的规模,通常 a 的值为 0.01 左右;

Leaky ReLU 的函数规模是(负无穷到正无穷)。

注意:从理论上讲,Leaky ReLU 具有 ReLU 的所有便宜,而且 Dead ReLU 不会有任何题目,但在实际操作中,尚未完全证明 Leaky ReLU 总是比 ReLU 更好。5. ELU 

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

ELU vs Leaky ReLU vs ReLUELU 的提出也解决了 ReLU 的题目。与 ReLU 相比,ELU 有负值,这会使激活的平均值靠近零。均值激活靠近于零可以使进修更快,因为它们使梯度更靠近自然梯度。

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

显然,ELU 具有 ReLU 的所有便宜,并且:

没有 Dead ReLU 题目,输入的平均值靠近 0,以 0 为中心;

ELU 通过减少偏置偏移的影响,使正常梯度更靠近于单位自然梯度,从而使均值向零加速进修;

ELU 在较小的输入下会饱和至负值,从而减少前向传播的变异和信息。

一个小题目是它的计算强度更高。与 Leaky ReLU 类似,尽管理论上比 ReLU 要好,但目前在实践中没有充分的证据表明 ELU 总是比 ReLU 好。6. PReLU(Parametric ReLU)深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点PReLU 也是 ReLU 的改进版本:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

看一下 PReLU 的公式:参数α通常为 0 到 1 之间的数字,并且通常相对较小。

如果 a_i= 0,则 f 变为 ReLU

如果 a_i> 0,则 f 变为 leaky ReLU

如果 a_i 是可进修的参数,则 f 变为 PReLU

PReLU 的便宜以下:

在负值域,PReLU 的斜率较小,这也可以避免 Dead ReLU 题目。

与 ELU 相比,PReLU 在负值域是线性运算。尽管斜率很小,但不会趋于 0。

7. Softmax

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

Softmax 是用于多类分类题目的激活函数,在多类分类题目中,超过两个类标签则需要类成员关系。对于长度为 K 的随便实向量,Softmax 可以将其压缩为长度为 K,值在(0,1)规模内,并且向量中元素的总和为 1 的实向量。

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

Softmax 与正常的 max 函数不同:max 函数仅输入最大值,但 Softmax 确保较小的值具有较小的几率,并且不会直接丢弃。我们可以认为它是 argmax 函数的几率版本或「soft」版本。Softmax 函数的分母结合了原始输入值的所有因子,这意味着 Softmax 函数获得的各种几率彼此相关。Softmax 激活函数的主要缺点是:

在零点不可微;

负输入的梯度为零,这意味着对于该区域的激活,权重不会在反向传播期间更新,因此会产生永不激活的死亡神经元。

8. Swish 

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

函数表达式:y = x * sigmoid (x)Swish 的设计受到了 LSTM 和高速网络中 gating 的 sigmoid 函数使用的启发。我们使用相同的 gating 值来简化 gating 机制,这称为 self-gating。self-gating 的便宜在于它只需要简单的标量输入,而普通的 gating 则需要多个标量输入。这使得诸如 Swish 之类的 self-gated 激活函数能够轻松替换以单个标量为输入的激活函数(例如 ReLU),而无需更改隐藏容量或参数数量。Swish 激活函数的主要便宜以下:

「无界性」有助于防止慢速训练期间,梯度逐渐靠近 0 并导致饱和;(同时,有界性也是有优势的,因为有界激活函数可以具有很强的正则化,并且较大的负输入题目也能解决);

导数恒 > 0;

光滑度在优化和泛化中起了重要作用。

9. Maxout

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

在 Maxout 层,激活函数是输入的最大值,因此只有 2 个 maxout 节点的多层感知机就可以拟合随便的凸函数。单个 Maxout 节点可以解释为对一个实值函数进行分段线性近似 (PWL) ,其中函数图上随便两点之间的线段位于图(凸函数)的上方。

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

Maxout 也可以对 d 维向量(V)实现:

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

假设两个凸函数 h_1(x) 和 h_2(x),由两个 Maxout 节点近似化,函数 g(x) 是连续的 PWL 函数。

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

因此,由两个 Maxout 节点组成的 Maxout 层可以很好地近似任何连续函数。

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

10. Softplus

深度进修领域最常用的10个激活函数,一文详解数学原理及优缺点

Softplus 函数:f(x)= ln(1 + exp x)Softplus 的导数为f ′(x)=exp(x) / ( 1+exp⁡ x )= 1/ (1 +exp(−x )),也称为 logistic / sigmoid 函数。Softplus 函数类似于 ReLU 函数,但是相对较光滑,像 ReLU 一样是单侧抑制。它的接受规模很广:(0, + inf)。原文链接:https://sukanyabag.medium.com/activation-functions-all-you-need-to-know-355a850d025e

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/shen-du-jin-xiu-ling-yu-zui-chang-yong-de-10-ge-ji-huo-han/

(0)
上一篇 2021年 2月 24日 上午10:50
下一篇 2021年 2月 25日 下午2:33

相关推荐

  • 为什么我不再推荐你用Julia?

    从诞生之日起,Julia 已经走过了十多个年头。

    2022年 5月 17日
  • Alluxio宣布获得新一轮5000万美元融资

    新设中国区总部,开启寰球扩张新征程

    2021年 11月 17日
  • ICCV 2021审稿结果出炉,有人已总结出了一份Rebuttal写作指南

    又一个计算机视觉顶会通过了审稿阶段。论文评分是这样,想好怎么 rebuttal 了吗?

    2021年 6月 12日
  • 生物技术初创Lumen与google合作,用机械进修让螺旋藻蛋白消费力翻倍

    编辑/凯霞机械进修可以促进鉴于藻类的生物制剂消费吗?8 月 11 日,西雅图生物技术初创公司 Lumen Bioscience (以下简称「Lumen」)与google宣布合作,将利用机械进修来推进鉴于螺旋藻(一种蓝绿藻)的药物开发。Lumen 表示,该钻研由 Lumen 的信息学负责人 Caitlin Gamble 和google加速科学工程师 Drew Bryant 领导。Lumen 联合创始人 Jim Roberts 说:「google的机械进修和我们鉴于螺旋藻疗法消费的开创性结合,让我们更接近于一种完全优化的步骤,这种步骤可能对全

    2021年 9月 2日
  • FC 2022 | 基于博弈论分析的非同质化代币证券化与回购商场

    本文是 FC 2022入选论文《ABSNFT: Securitization and Repurchase Scheme for Non-Fungible Tokens Based on Game Theoretical Analysis》的解读。该论文为北京大学前沿计算研究中心算法博弈论实验室2021年暑期夏令营的科研结果,指导老师为北京大学前沿计算研究中心邓小铁教授和苏州科技大学程郁琨教授。文章提出了一种将区块链上的非同质化代币(Non-Fungible Token, NFT)进行证券化与回购的规划,并基于博弈论对该规划进行理论分析。

    2022年 7月 18日
  • 【征稿】IJCAI 2021联邦进修与转嫁进修国内研讨会

    数字时代,隐衷和宁静正成为一个关键问题。公司和组织每天都在收集大量的数据,然而数据隐衷爱护相关法律法规越来越严格,给大数据和人工智能带来了新的挑衅。例如欧盟的《通用数据爱护条例》(General data Protection Regulation,GDPR)就明确提出,禁止在没有明确用户受权的情况下,直接合并来自不同来源的用户数据进行AI建模。为了探索AI如何适应这种新的监管环境,微众银行、京东、第四范式等中国企业共同香港科技大学、新加坡南洋理工大学、普林斯顿大学等国内知名高校及科研院所,将在第30届人工智能国内

    2021年 4月 9日
  • 508人决战,北大占绝对优势:我们围观了一下2021阿里全球数学比赛决赛真题

    5 大赛道的 25 道决赛试题已正式公布,你都能看懂吗?

    2021年 6月 29日
  • 当春乃发「声」,呆板之心AI科技年会高朋揭晓

    时在中春,阳和方起。呆板之心「AI科技年会」将于3月23日举办。本次活动分为三场论坛:人工智能论坛、AI x Science 论坛和首席智行官大会。由于疫情原因,「人工智能论坛」与「AI x Science 论坛」转为线上直播;「首席智行官大会」仍在北京线下举办。「人工智能论坛」直播地址:http://live.bilibili.com/3519835「AI x Science 论坛」直播地址:http://live.bilibili.com/24531944「首席智行官大会」线下报名地址:http://hdxu.

    2022年 3月 10日
  • 初三就能上清华,丘成桐数学科学领军意图首批名单出炉,本月入校接受预科教育

    不需要参加高考,第一批入围「丘成桐数学科学领军意图」的神仙选手们,这个月将直接入读清华大学。

    2021年 4月 7日
  • WAIC开发者日Workshop预告:华为昇思MindSpore基础模型创新试验

    昇思 MindSpore 是华为开源的新一代全场景 AI 框架,支持端、边、云全场景灵活部署,开创全新的 AI 编程范式,降低 AI 开发门槛,旨在实现开发友好、运行高效、部署灵活三大目标,同时着力构筑面向全球的人工智能开源社区,推动人工智能软硬件应用生态繁荣发展。昇思 MindSpore 原生支持大模型,联合合作伙伴推出了四大领域创新模型。鹏城实验室鉴于昇思 MindSpore 先后推出了业界首个 2000 亿参数中文预训练语言模型鹏程,盘古和面向生物医学领域的鹏程,神农大模型、中科院自动化所鉴于昇思 MindS

    2022年 9月 1日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注