机器学习知识总结 —— 9. 深度学习常用10个激活函数（补充·激活函数与非线性输出）

文章目录1. sigmoid 函数1.1. 函数原型1.2. 函数图与梯度图2. tanh 函数2.1. 函数原型2.2. 函数图与梯度图3. ReLu 函数3.1. 函数原型Dead ReLu 问题3.2. 函数图4. Leaky ReLu 函数4.1. 函数原型4.2. 函数图5. ELU 函数5.1. 函数原型5.2. 函数图6. PReLu 函数6.1. 函数原型7. Softmax 函数

打码的老程

2723人浏览 · 2021-11-20 13:07:10

打码的老程 · 2021-11-20 13:07:10 发布

这一章节实际上是对之前《深度学习知识总结—— 3. 激活函数与非线性输出》的补充。随着自己的工作内容的深入，发现自己在一些概念的理解上过于浅薄，在参考了《深度学习领域最常用的10个激活函数，详解数学原理及优缺点》基础上，做一些必要的补充说明。

我们使用激活函数的主要目的，有三：

打破矩阵运算之间的「线性关系」；
避免或降低模型「过拟合」；
调整模型梯度生成情况。

然后我们接下来就常用的十类激活函数进行说明。

1. sigmoid 函数

1.1. 函数原型

$\sigma(x) = \frac{1}{1+ e^{-x}}$

输出是S型曲线，具备打破网络层与网络层之间的线性关系，可以把网络层输出非线形地映射到 $(0, 1)$ 区间里。函数的特性，决定了它能够避免或降低网络模型过拟合情况的发生，但是这种函数最大的缺陷在于容易出现「梯度消失」的情况。

1.2. 函数图与梯度图

红色为原始函数图像
蓝色为函数导数图像

在这里插入图片描述

原函数的值域区间为 $(0, 1)$ ，从导数来看其在 $[- 2, 2]$ 区间尤其是接近0轴的导数较大，但是函数最大值依然小于1，所以当多个 $\sigma$ 相乘时很容易导致梯度变为极小值，使权重更新缓慢。

2. tanh 函数

2.1. 函数原型

$\tanh x = \frac{e^x - e^{-x}}{e^x + e^{-x}}$

输出是S型曲线，具备打破网络层与网络层之间的线性关系，可以把网络层输出非线形地映射到 $(- 1, 1)$ 区间里。函数的特性，决定了它能够避免或降低网络模型过拟合情况的发生，相较于 sigmoid 函数不容易出现梯度变为极小值，导致权重更新缓慢的问题。

可作为 sigmoid 函数的替代函数。

2.2. 函数图与梯度图

绿色为原始图像
紫色为导数图像

在这里插入图片描述

原函数的值域区间为 $(- 1, 1)$ ，从导数来看其在 $[- 2, 2]$ 区间尤其是接近0轴的导数较大，但是函数最大值为1，不容易出现梯度消失的情况，但是对于x在 $[- 2, 2]$ 之外的值，其导数接近0，所以 一定要确保 $f (x)$ 输出的数据在进入到 $\tanh$ 之前，都已经做了正则化处理。

3. ReLu 函数

3.1. 函数原型

$\left \{ \begin{matrix} x & x > 0 \\ 0 & x \leq 0 \end{matrix} \right.$

尽管计算速度快，但是需要注意一点，由于 $\ge 0$ 时 $R e L u (f (x)) = f (x)$ ，在求导时很可能因为多个 $\frac{d}{dx}f(x)$ 连续相乘而出现梯度爆炸出现，所以必要的时候应该配合 $\tanh$ 或 sigmoid 函数使用。

Dead ReLu 问题

在输入数据小于0的时候，输出为0。如果 $f (x)$ 的输出中有不需要处理的负值，可以考虑使用这个函数。另外由于它的梯度恒为1，所以函数本身不存在梯度消失或爆炸的问题，通常配合 sigmoid 函数或 $\tanh$ 函数使用，也可以单独使用。

3.2. 函数图

在这里插入图片描述

虽然大多数情况下，我们更关心的是概率问题 $[0, 1]$ ，但是在网络层传递过程中有些特殊情形是一定需要负值参与的。比如某些条件的成立需要某两个参数之间是「负相关」，而由于 $x < 0$ 时 $y = 0$ ，它会导致模型对这部分输入没有相应，从而影响精度。

4. Leaky ReLu 函数

4.1. 函数原型

$\left \{ \begin{matrix} x & x > 0 \\ c x & x \leq 0 \end{matrix} \right.$

$c$ 是可调节权重允许 $[0, 1]$ ，但是通常习惯上只使用到 0.01 左右。

不会出现 Dead ReLu 问题，但是关于输入函数 $f (x)$ 的部分容易出现梯度爆炸的情况是一样的，所以必要时，也可以搭配 sigmoid 或 tanh 使用。

4.2. 函数图

在这里插入图片描述

允许负值一定程度上参与到计算中，比 ReLu 函数稍微温和一些，所以不存在 Dead ReLu 问题。

5. ELU 函数

5.1. 函数原型

$\left \{ \begin{matrix} x & x > 0 \\ c(e^x - 1) & x \leq 0 \end{matrix} \right.$

eLu 也是为了解决 Dead ReLu 而提出的改进型。计算上稍微比 Leaky ReLu 复杂一点，但从精度看似乎并未提高多少。

5.2. 函数图

在这里插入图片描述

6. PReLu 函数

6.1. 函数原型

$\left \{ \begin{matrix} x & x > 0 \\ \beta x & x \leq 0 \end{matrix} \right.$

公式与 LeakyReLu 相似，但并不完全一样。 $\beta$ 可以是常数，或自适应调整的参数。也就是说，如果让 $\beta$ 自适应，那么 PReLu会在反向传播时更新参数 $\beta$ 。

7. Softmax 函数

7.1. 函数原型

$Softmax(Z_j) = \frac{e^{z_j}}{\sum_{k=1}^K e^{z_k}}$

概率论和相关领域中出现的一种 「归一化（normalize）」 函数。它可以把一个 「K维」 数据压入到「e指数」空间中，使得每一个元素的范围都在 $(0, 1)$ 之间，并且所有元素的和为1。

在这里插入图片描述
Softmax 可以确保较小的值具有较小的概率，并且不会直接丢弃。由于Softmax 函数的分母结合了所有因子，这意味着 Softmax 函数获得的各种概率彼此相关。另一方面，由于 e 指数的限制，对于负值的梯度趋近于0，所以这部分权重不会在反向传播期间更新。

在这里插入图片描述

注意，对于 $e^x$ 的导数等于 $e^x$ 本身，所以在负值时，函数左侧数值趋向于0，这会导致数据在反向传播期间无法有效更新。

8. Swish 函数

8.1. 函数原型

$\sigma(\beta x) = x \frac{1}{1 + e^{- \beta x}}$

$\beta$ 可以是常数或自适应。

如果令 $\beta = 1$ ，那么方程等价于「权重 sigmoid 函数（Sigmoid- weighted Linear Unit Function）」可起到如下图所示，类似 ELU的效果
在这里插入图片描述

其中：

绿色为原始图像

红色色为导数图像

当 $\beta = 0$ 时，方程变成 $\frac{x}{2}$ 线性方程。

如果我们令 $\beta \rightarrow \infty$ ，方程会变成如下所示，类似 ReLu 函数的效果。
在这里插入图片描述
因此，随着 $\beta$ 的变化，函数会非线性地在「线性函数」和「ReLu函数」函数间变化。

9. Maxout 函数

9.1. 函数原型

$max(\omega_1 x + b_1, \omega_2 + b_2, \cdots, \omega_n x + b_n)$

它是极为特殊的一类激活函数，与其他激活函数一开始固定了函数输出的形式不同，它采用分段线性组合，对任意 「凸函数（convex function）」 进行线性逼近。

注意：
国内教材对于凹凸函数的定义与国际相反。国际一般定义凸函数的图像形如开口向上的杯，形似 $\cup$ ，而凹函数则形如开口向下的帽 $\cap$ 。

我们需要在训练开始前确定使用的线性单元数量，为了获得理想的激活函数，Maxout 使用这些线性单元，采用分段地逼近策略（piece-wise linear approximation），并在最终取值时从分段函数选取最大值作为输出。

在这里插入图片描述

上图示例了 Maxout 如何逼近 ReLu 函数，绝对值函数，以及任意凸函数。

10. Softplus 函数

10.1. 函数原型

$softplus(x) = \log (1 + e^{x})$

它是一种和 ReLu 函数功能作用极象的函数，并且在很多新的模型里，作为 ReLu 的替代。相对于ReLu 或 LeakyReLu 来说，Softplus 有个非常「致命」的优点，就是它在0点处是可导的。

不过相对于 ReLu 的粗暴简单，这个函数的运算耗费时间相对较多。

10.2. 函数图

在这里插入图片描述

蓝色线条是 Softplus 函数

绿色线条是 ReLu 函数

技术共进，成长同行——讯飞AI开发者社区

更多推荐

AI赋能生物大数据：新药研发新纪元

随着计算能力的提升和生物数据的持续积累，人工智能在药物研发中的作用将不断扩大。跨学科合作将是实现这一潜力的关键，需要生物学家、临床医生、数据科学家和工程师的紧密协作。药物研发过程中涉及的生物大数据主要包括基因组数据、蛋白质结构数据、电子健康记录和医学影像等。深度学习模型能够分析基因表达谱、蛋白质互作网络和表型数据之间的复杂关系，预测潜在的药物靶点。这些模型学习已知药物的化学空间分布，然后生成具有理

讯飞AI开发者社区

AI赋能：智能电网的未来革命

智能电网通过传感器、智能电表和物联网设备收集海量数据，包括用电量、电压、电流、频率等实时信息。这些数据为人工智能提供了丰富的输入源，使其能够进行预测、优化和自动化决策。人工智能技术在智能电网中的应用主要体现在负荷预测、故障检测、能源调度和分布式能源管理等方面。结合图神经网络，可以分析电网拓扑结构中的故障传播路径，快速定位问题源头。能源调度是智能电网的核心问题，需要在满足需求的同时最小化成本和碳排放

讯飞AI开发者社区

揭秘惊人事实！AI智能体为量子领域探索带来的变革

本文将带你深入量子与AI的交叉前沿，揭开AI智能体如何重塑量子领域探索的神秘面纱。我们将从量子领域的核心挑战出发，解析AI智能体（具备自主学习、动态决策、跨模态理解能力的人工智能系统）的独特优势，通过谷歌、IBM、中科大等顶尖机构的12个真实案例，详细拆解AI智能体在量子计算、量子模拟、量子通信、量子纠错四大领域的突破性应用。你将看到：AI智能体如何像"量子领域的超级导航员"，带领人类穿越微观世界