机器学习基础---神经网络---全连接网络及BP算法

BP神经网络方法描述方法思想：使用复合函数f(x)=fm(f(m−1)(...f1(x)))f(x)=f^m(f^{(m-1)}(...f^1(x)))f(x)=fm(f(m−1)(...f1(x)))拟合输入样本集XXX到标签集YYY之间的映射针对一个样本xix_ixi进行计算的过程是正向的，从f1(x)f^1(x)f1(x)到fm(x)f^m(x)fm(x)一步步计算，称作正向传播优化复合函

Guanxiong He

1100人浏览 · 2021-11-13 21:23:36

Guanxiong He · 2021-11-13 21:23:36 发布

BP神经网络

方法描述

方法思想：

使用复合函数 $f(x)=f^m(f^{(m-1)}(...f^1(x)))$ 拟合输入样本集 $X$ 到标签集 $Y$ 之间的映射
针对一个样本 $x_i$ 进行计算的过程是正向的，从 $f^1(x)$ 到 $f^m(x)$ 一步步计算，称作正向传播
优化复合函数，即调整每一层函数参数以使得预测结果偏差最小的过程中，需要从结果的误差出发，向前传递误差，进而修改参数，此为反向传播（BP）

相关概念

感知机

在这里插入图片描述

如上图所示，每个圆代表一个神经元，对来自其他神经元的信号输入 $x=[x_1,x_2,...,x_k]$

经过神经元处理 $f=∑i=1kwixi+biasf=\sum_{i=1}^kw_ix_i+bias$ 得到 $f$ ，类似于神经元细胞对来自其他神经元细胞的传递的刺激脉冲的累加

再对使用阶跃函数处理 $f$ ，即根据累加脉冲是否达到阈值判断神经元是否有输出

事实上，感知机是一个线性二分类模型，也可以表示为 $f(x)=sign(w^Tx+b)$ ，与寻找超平面将线性可分样本分开等价

多层感知机（全连接神经网络）

全连接神经网络，可以视作是由多个感知机构成的

中间层称作隐藏层，可以有多个
激活函数
- 神经元累加脉冲的步骤可以用矩阵乘 $W \cdot x$ 表示，将多层直接联系起来有 $f(x)=W_mW_{m-1}...W_1x$ ，其仍然是一个仿射变换
- 因此为了实现对非线性映射的拟合，可以选择在每一层输出处引入一个非线性变换，即激活函数
- 常用的激活函数有：
  - Relu
    $Relu(x)=\begin{cases} 0 \ \ \ \ \ \ \ x\leq0\\ x \ \ \ \ \ \ \ x>0 \end{cases}$
  - sigmoid函数
    $sigmoid(x)=\frac1{1+e^{-x}}$
  - tanh函数
    $tanh(x)=\frac{1-e^{-2x}}{1+e^{-2x}}$

方法推导

反向传播
如图，是 $l$ 层全连接网络

在这里插入图片描述

令：第 $l - 1$ 层与第 $l$ 层之间的权重向量为 $w^l$ ，偏置向量为 $b^l$ ，第 $l$ 层未激活的累加信号向量 $Z^l$ ，第 $l$ 层激活后的累加信号向量 $αl\alpha^l$

前向传播的过程可以用迭代的方式表示为：
$\alpha^l=\sigma(Z^l)=\sigma(W^l\alpha^{l-1}+b^l) \ \ \ \ \ \ (l=2,3,...,L)\\ \alpha^1=x$

定义损失函数为平方损失函数：
$J(W,b,x,y)=\frac12||\alpha^L-y||_2^2=\frac12||\sigma(W^L\alpha^{L-1}+b^L)-y||^2$
求解损失函数梯度：
$\begin{aligned} &\frac{\partial J(W,b,x,y)}{\partial{W^L}}=[(\alpha^L-y)·\sigma'(Z^L)](\alpha^{L-1})^T\\ &\frac{\partial J(W,b,x,y)}{\partial{b^L}}=(\alpha^L-y)·\sigma'(Z^L)\\ &\frac{\partial J(W,b,x,y)}{\partial{Z^L}}=(\alpha^L-y)·\sigma'(Z^L)\\ \end{aligned} 此处(\alpha^L-y)·\sigma'(Z^L)为相应位置元素相乘$

$记：\delta^L=\frac{\partial J(W,b,x,y)}{\partial{Z^L}}=(\alpha^L-y)·\sigma'(Z^L)$
由 $Zl=Wlαl−1+blZ^l=W^l\alpha^{l-1}+b^l$
$\begin{aligned} &\frac{\partial{J(W,b,x,y)}}{\partial{W^l}}=\frac{\partial J(W,b,x,y)}{\partial{Z^l}}\frac{\partial Z^l}{\partial{W^l}}=\delta^l(\alpha^{l-1})^T\\ &\frac{\partial{J(W,b,x,y)}}{\partial{b^l}}=\frac{\partial J(W,b,x,y)}{\partial{Z^l}}\frac{\partial Z^l} {\partial{b^l}}=\delta^l \end{aligned}$
由
$\delta^l=\frac{\partial J(W,b,x,y)}{\partial{Z^l}}=(\frac{\partial Z^{l+1}}{\partial{Z^l}})^T\delta^{l+1}$

$Z^{l+1}=W^{l+1}\alpha^l+b^{l+1}=W^{l+1}\sigma(Z^l)+b^{l+1}\\ \frac{\partial Z^{l+1}}{\partial{Z^l}}=W^{l+1}\sigma'(Z^l)$
即可以从第L层开始，计算 $δL\delta^L$ ，一层层向前计算 $δl\delta^l$ ，进而求得损失函数对第l层 $W^l$ 与 $b^l$ 的偏导

方法流程

初始化每一层 $W, b$
输入 $α1=x\alpha^1=x$
前向传播
$\alpha^{i,l}=\sigma(W^{l}\alpha^{i,l-1}+b^{l})$
计算：
$\delta^L=(\alpha^L-y)·\sigma'(Z^L)$
从 $l = L - 1$ 到 $l = 2$ ，反向逐层计算：
$\delta^{i,l}=W^{l+1}\delta^{i,l+1}·\sigma'(z^{i,l})$
更新：
$W^l=W^l-\eta\sum_{i=1}^m\delta^{i,l}(\alpha^{i,l-1})^T\\ b^l=b^l-\eta\sum_{i=1}^m\delta^{i,l}$
满足误差条件后结束，否则返回第三步
得到所有的 $W, b$ ，对新样本前向传播求解

参考资料

【1】[神经网络反向传播矩阵求导][https://zhuanlan.zhihu.com/p/83859554?from_voters_page=true]

【2】[矩阵求导术（上）][https://zhuanlan.zhihu.com/p/24709748]

【3】[BP算法的矩阵推导][https://blog.csdn.net/qq_35269774/article/details/88585053]

技术共进，成长同行——讯飞AI开发者社区

技术共进，成长同行——讯飞AI开发者社区

更多推荐

AI智能体—人工智能工作流与人工智能智能体：真正的区别是什么？

本文探讨了人工智能工作流与智能体的核心区别。工作流是静态、可预测的执行序列（如预处理→嵌入→搜索→总结），适合批处理作业；而智能体能动态感知环境、自主决策（感知→推理→决策循环），具备适应性和工具选择能力。关键差异在于：工作流遵循固定路径，智能体则能根据目标调整策略。架构上，工作流使用Airflow等工具，智能体依赖LangChain等框架。智能体的自主性使其更适用于动态环境，代表下一代AI应用方

讯飞AI开发者社区

cover

为什么人工智能偏爱 Python？——从“慢语言”到行业标准的背后逻辑

讯飞AI开发者社区

cover

零基础能当数据分析师吗？从 Excel 到 Python，3-6 个月入门指南

讯飞AI开发者社区

所有评论(0)

查看更多评论

Guanxiong He

已为社区贡献8条内容