神经网络——激活函数

激活函数激活函数 fANf_{AN}fAN 接收节点输入信号和偏差，以 x=net−θx=net-\thetax=net−θ 表示，决定输出。一个好的激活函数需要满足以下条件：（1）非线性，即导数不是常数，其目的在于保证多重网络不退化成单层线性网络；（2）几乎处处可微：可微性保证了再梯度优化中梯度的可计算性；（3）计算简单：激活函数在神经网络前向传播过程中的使用次数与神经元的个数成正比，因此保证

有梦想的雨

1162人浏览 · 2021-12-28 16:00:53

有梦想的雨 · 2021-12-28 16:00:53 发布

激活函数

激活函数 $f_{AN}$ 接收节点输入信号和偏差，以 $x=net−θx=net-\theta$ 表示，决定输出。一个好的激活函数需要满足以下条件：

（1）非线性，即导数不是常数，其目的在于保证多重网络不退化成单层线性网络；

（2）几乎处处可微：可微性保证了再梯度优化中梯度的可计算性；

（3）计算简单：激活函数在神经网络前向传播过程中的使用次数与神经元的个数成正比，因此保证其计算的简单性是很有必要的；

（4）非饱和性（saturation）：饱和指的是在某些区间梯度接近于零（即梯度消失），使得参数无法继续更新的问题；

（5）单调性（monotonic）：即导数符号不变，单调性使得激活函数的梯度方向不会经常改变，从而使得训练更容易；

（6）输出范围有限：有限的输出范围使得网络对于一些比较大的输入也会比较稳定。但这会导致梯度消失问题；

（7）接近恒等变换（identity）：即约等于x。这样的好处是使得输出的幅值不会随着深度的增加而发生显著的增加，从而使网络更为稳定，同时梯度也能够更容易地回传。但与非线性存在矛盾。

（8）参数少：大部分激活函数都是没有参数的；使用带参数的激活函数会略微增加网络的大小；

（9）归一化：主要思想是使样本分布自动归一化到零均值、单位方差的分布，从而稳定训练；

（10）zero-centered:

对多数激活函数（线性除外），应当满足： $fAN(−∞)=0或fAN(−∞)=−1f_{AN}(-\infty)=0或f_{AN}(-\infty)=-1$ ，且有 $fAN(∞)=1f_{AN}(\infty)=1$ 。

常用激活函数有：

1.线性函数： $fAN(x)=λ⋅xf_{AN}(x)=\lambda\cdot x$ ， $λ\lambda$ 为一常数；
在这里插入图片描述

2.阶跃函数： $x<0\displaystyle f_{AN}(x)=\left\{ \begin{aligned} \gamma_1, & & {if\,\,x\ge0}\\ \gamma_2, & & {if\,\,x<0}\\ \end{aligned} \right.$ ，其中，常取 $−1\gamma_1=1,\gamma_2=0\;or\;-1$ ;
在这里插入图片描述

3.斜面函数： $x≤−ϵ\displaystyle f_{AN}(x)=\left\{ \begin{aligned} \gamma, & & {if\,\,x\ge\epsilon}\\ x, & & {if\,\,-\epsilon<x<\epsilon}\\ -\gamma, & & {if\,\,x\le-\epsilon}\\ \end{aligned} \right.$
在这里插入图片描述

4. $S i g m o i d$ 函数：

$fAN(x)=11+e−λx\displaystyle f_{AN}(x)=\frac{1}{1+e^{-\lambda x}}$ ；其值域为 $[0, 1] ；$ 通常， $λ=1\lambda=1$ ；

导数：当 $λ=1\lambda=1$ 时， $fAN′(x)=e−λx(1+e−λx)2=fAN(x)⋅fAN(−x)=fAN(x)⋅[1−fAN(x)]\displaystyle f'_{AN}(x)=\frac{e^{-\lambda x}}{(1+e^{-\lambda x})^2}=f_{AN}(x)\cdot f_{AN}(-x)=f_{AN}(x)\cdot [1-f_{AN}(x)]$ ；其值域为 $[0, 1 / 4]$
在这里插入图片描述

5.双曲正切函数：

$fAN(x)=eλx−e−λxeλx+e−λx≈21+e−λx−1\displaystyle f_{AN}(x)=\frac{e^{\lambda x}-e^{-\lambda x}}{e^{\lambda x}+e^{-\lambda x}}\approx\frac{2}{1+e^{-\lambda x}}-1$ ，其值域为 $[- 1, 1]$ ，通常， $λ=1\lambda=1$ ；

导数：当 $λ=1\lambda=1$ 时， $fAN(x)=1−(eλx−e−λxeλx+e−λx)2=1−fAN2\displaystyle f_{AN}(x)=1-(\frac{e^{\lambda x}-e^{-\lambda x}}{e^{\lambda x}+e^{-\lambda x}})^2=1-f^2_{AN}$ ，其值域为 $[0, 1]$ ；
在这里插入图片描述

6.高斯函数： $fAN(x)=ex2/δ2\displaystyle f_{AN}(x)=e^{{x^2}/{\delta^2}}$ ，其中， $θ\theta$ 为高斯分布的均值， $δ2\delta^2$ 为方差；
在这里插入图片描述

7.ReLU函数：

$x≤0\displaystyle f_{AN}(x)=max(0,x)=\left\{ \begin{aligned} x, & & {if\,\,x>0}\\ 0, & & {if\,\,x\le0}\\ \end{aligned} \right.$ ，

其导数为 $x≤0\displaystyle f'_{AN}(x)=\left\{ \begin{aligned} 1, & & {if\,\,x>0}\\ 0, & & {if\,\,x\le0}\\ \end{aligned} \right.$ ，
在这里插入图片描述

ReLU函数的优点在于梯度和计算量小，缺点在于均值不为0，无上界等，因此有变种，如：

LeakyReLU： $fAN(x)=max(αx,x),α可取0.01\displaystyle f_{AN}(x)=max(\alpha x,x),\alpha可取0.01$ ；

ELU： $fAN(x)=max{α(ex−1),x}\displaystyle f_{AN}(x)=max\{\alpha(e^x-1),x\}$ ;

Noisy ReLU： $fAN(x)=max{0，x+Y}，Y∼N(0,σ(x))\displaystyle f_{AN}(x)=max\{0，x+Y\}，Y\sim N(0,\sigma(x))$ ;

ReLU上界设置： $fAN(x)=min(6,max(0,x))\displaystyle f_{AN}(x)=min(6,max(0,x))$

SELU： $fAN(x)=λ⋅max{α(ex−1),x}\displaystyle f_{AN}(x)=\lambda\cdot max\{\alpha(e^x-1),x\}$

$. . . . . .$

8.Maxout函数

与常规激活函数不同的是,它是一个可学习的分段线性函数，任何一个凸函数，都可以由线性分段函数进行逼近近似，因此，Maxout的拟合能力非常强。

假设 $ω\omega$ 是 2 维的，则有 $fAN=max{ω1Tx+b1,ω2Tx+b2}\displaystyle f_{AN}=max\{\omega^T_1\mathbf x+b_1,\omega^T_2\mathbf x+b_2\}$ ；

但从 Maxout 激活函数中可以看出，每个神经元中有两组参数 $(ω,b)(\omega,b)$ ，使得参数量增加了一倍，导致网络大小的增加。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

[论文阅读] 人工智能 + 软件工程 | 真实场景下GitHub Copilot生产力之谜：2年数据揭示客观提交无提升，开发者却直呼“好用”

讯飞AI开发者社区

上下文工程驱动智能体向通用人工智能

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运