深度学习：（七）梯度下降法在神经网络中的应用

详细说明了梯度下降法在神经网络中的应用，并给出公式和参数随机初始化的方法

炸膛坦客

1291人浏览 · 2024-09-23 17:20:21

炸膛坦客 · 2024-09-23 17:20:21 发布

梯度下降法在神经网络中的应用

事先规定：

用 $n$ 表示个数（维度）:

$n^{[0]}=n_x$ ，表示单个训练样本 $x$ 的元素个数；

$n^{[1]}$ 表示隐藏层 $1$ 的单元（节点）个数；

$n^{[1]}$ 表示……

梯度下降法公式：

① $w$ 和 $b$ 参数随机初始化；

②计算预测值

③求导： $dw^{[1]}$ 、 $db^{[1]}$ 、 $dw^{[2]}$ 、 $db^{[2]}$ 。

④更新参数：
$\begin{align*} &W^{[1]}=W^{[1]}-\alpha·dW^{[1]}\\ &b^{[1]}=b^{[1]}-\alpha·db^{[1]}\\ &W^{[2]}=W^{[2]}-\alpha·dW^{[2]}\\ &b^{[2]}=b^{[2]}-\alpha·db^{[2]} \end{align*}$
第三步反向传播求导的详细步骤：
$\begin{align*} &dZ^{[2]}=A^{[2]}-Y\\ &dW^{[2]}=\frac{1}{m}dZ^{[2]}A^{[1]T}\\ &db^{[2]}=\frac{1}{m}np.sum(dZ^{[2]},axis=1,keepdims=True)\\ &dZ^{[1]}=W^{[2]T}dZ^{[2]}*g^{[1]'}(Z^{[1]})//这里的*是元素对应相乘\\ &dW^{[1]}=\frac{1}{m}dZ^{[1]}X^{T}//这里的转置是因为W^{[1]}是由w_i^{[1]T}组成的\\ &db^{[1]}=\frac{1}{m}np.sum(dZ^{[1]},axis=1,keepdims=True)\\ \end{align*}$

参数随机初始化

神经网络的参数 $w_i^{[l]}$ 和不能像逻辑回归一样，初始化为零，否则梯度下降算法就会无效。

也不要将隐藏层中的所有节点参数都初始化成一样的，否则每个节点都在做相同的运算，毫无意义。

$\begin{align*} &W^{[1]}=np.random.randn((n^{[1]},n^{[0]}))·0.01~//高斯分布随机变量再乘以0.01\\ &b^{[1]}=np.zeros((n^{[1]},1))\\ &W^{[2]}=...\\ &b^{[2]}=... \end{align*}$

通常情况下，会把参数随机初始化成很小很小的值，这也是乘以 $0.01$ 的原因。

因为参数大的话， $z$ 计算出来就会大， $a$ 也会大，就会落在激活函数 $σ(z)\sigma(z)$ 或 $t anh (z)$ 的平缓区域，就会降低梯度下降法的速度，甚至形成梯度消失问题。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

【浪潮信息KeyarchOS (KOS)】手把手教你用unixbench：unixbench 精准跑分指南

浪潮信息KOS是浪潮信息基于Linux Kernel、OpenAnolis等开源技术自主研发的一款服务器操作系统，支持x86、ARM等主流架构处理器，性能和稳定性居于行业领先地位，具备成熟的 CentOS 迁移和替换能力，可满足云计算、大数据、分布式存储、人工智能、边缘计算等应用场景需求。unixBench是一个类unix系（Unix，BSD，Linux）统下的开源性能测试工具（即曾经的BYTE基

讯飞AI开发者社区

Infoseek舆情监测系统：字节探索的AI技术如何重塑企业舆情管理

讯飞AI开发者社区

【人工智能】实战案例：用提示词生成微服务架构设计的思路

本文通过实战案例展示了如何利用AI提示词生成微服务架构设计思路。针对电商、物流、教育三大典型场景，分别解析了业务需求、技术栈选择和服务拆分方案。在电商订单案例中，重点解决高并发下单和支付回调问题；物流系统侧重实时状态追踪和数据持久化；教育平台则关注课程资源管理与学习进度跟踪。每个案例均包含服务拆分、接口设计、中间件选型、性能优化等关键要素，并强调非功能性需求（如响应时间、可用性）的实现方案。通过具