神经网络权重为什么不能初始化为0

1 逻辑回归为什么可以初始化为0 ？1.1 参数说明输入: x1,x2x_1, x_2x1,x2输出: aaa权重: w1,w2w_1, w_2w1,w2偏置: bbb激活函数: sigmoidsigmoidsigmoid损失函数: crossentropycross entropycrossentropy逻辑回归用公式表达为: a=sigmoid(w1x1+w2x2+b)a = sigm

十三吖

1089人浏览 · 2021-10-31 21:36:55

十三吖 · 2021-10-31 21:36:55 发布

1 逻辑回归为什么可以初始化为0 ？

1.1 参数说明

输入: $x_1, x_2$
输出: $a$
权重: $w_1, w_2$
偏置: $b$
激活函数: $s i g m o i d$
损失函数: $c r o s s e n t r o p y$

逻辑回归用公式表达为: $a = sigmoid(w_1x_1 + w_2x_2 + b)$
损失函数: $L = - y l o g (a) - (1 - y) l o g (1 - a)$

1.2 反向传播

sigmoid函数的导数: $s^{'} = s (1 - s)$

$∂L∂a=−ya+1−y1−a\frac{\partial L}{\partial a} = -\frac{y}{a} + \frac{1-y}{1-a}$

$∂L∂w1=∂L∂a⋅∂a∂x=(a−y)x1\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial a} · \frac{\partial a}{\partial x} = (a-y)x_1$

$∂L∂w2=(a−y)x2\frac{\partial L}{\partial w_2} = (a-y)x_2$

$∂L∂b=(a−y)\frac{\partial L}{\partial b} = (a-y)$

1.3 参数更新

$w1:=w1−α∂L∂w1w_1 := w_1 - \alpha \frac{\partial L}{\partial w_1}$

$w2:=w2−α∂L∂w2w_2 := w_2 - \alpha \frac{\partial L}{\partial w_2}$

$\alpha \frac{\partial L}{\partial b}$

1.4 分析

当把 $w_1, w_2$ 初始化为0， $∂L∂w1,∂L∂w2\frac{\partial L}{\partial w_1}, \frac{\partial L}{\partial w_2}$ 与无关，梯度不为0，参数可以正常更新。当 $b$ 初始化为0，梯度为0.5或-0.5，也不影响参数更新。

2 为什么神经网络的权重不可以初始化为0 ？

2.1 参数说明

输入: $x_1, x_2$
输出: $a_1, a_2, a_3$
权重: $w_{11}, w_{12}, w_{21}, w_{22}, w_{13}, w_{23}$
偏置: $b_1, b_2, b_3$
激活函数: $s i g m o i d$
损失函数: $c r o s s e n t r o p y$

损失函数: $L = -y log(a_3) - (1-y) log(1-a_3)$

2.2 前向传播

$a_1 = sigmoid(w_{11}x_1 + w_{21}x_2 + b_1)$

$a_2 = sigmoid(w_{12}x_1 + w_{22}x_2 + b_2)$

$a_3 = sigmoid(w_{13}a_1 + w_{23}a_2 + b_3)$

2.3 反向传播

$∂L∂a3=−ya3+1−y1−a3\frac{\partial L}{\partial a_3} = -\frac{y}{a_3} + \frac{1-y}{1-a_3}$

$∂L∂w13=(a3−y)a1\frac{\partial L}{\partial w_{13}} = (a_3 - y)a_1$

$∂L∂w23=(a3−y)a2\frac{\partial L}{\partial w_{23}} = (a_3 - y)a_2$

$∂L∂b3=(a3−y)\frac{\partial L}{\partial b_3} = (a_3 - y)$

$∂L∂a1=(a3−y)w13\frac{\partial L}{\partial a_1} = (a_3 - y)w_{13}$

$∂L∂a2=(a3−y)w23\frac{\partial L}{\partial a_2} = (a_3 - y)w_{23}$

$∂L∂w11=(a3−y)w13a1(1−a1)x1\frac{\partial L}{\partial w_{11}} = (a_3 - y)w_{13} a_1(1-a_1) x_1$

$∂L∂w21=(a3−y)w13a1(1−a1)x2\frac{\partial L}{\partial w_{21}} = (a_3 - y)w_{13} a_1(1-a_1) x_2$

$∂L∂b1=(a3−y)w13a1(1−a1)\frac{\partial L}{\partial b_{1}} = (a_3 - y)w_{13} a_1(1-a_1)$

$∂L∂w12=(a3−y)w23a2(1−a2)x1\frac{\partial L}{\partial w_{12}} = (a_3 - y)w_{23} a_2(1-a_2) x_1$

$∂L∂w22=(a3−y)w23a2(1−a2)x2\frac{\partial L}{\partial w_{22}} = (a_3 - y)w_{23} a_2(1-a_2) x_2$

$∂L∂b2=(a3−y)w23a2(1−a2)\frac{\partial L}{\partial b_{2}} = (a_3 - y)w_{23} a_2(1-a_2)$

2.4 讨论

可以分为下面3个情况

w初始化为0，b初始化为0
w初始化为0，b随机初始化
w随机初始化，b初始化为0

2.4.1 w初始化为0，b初始化为0

第一个batch，前向传播 $a_1 = a_2 = a_3 = 0.5$ ，由于 $a_1=a_2$ , 反向传播会导致 $w_{13}, w_{23}$ 可以得到更新但是两个权重均相同，同时 $b_3$ 也得到了更新， $w_{11}, w_{21}, w_{12}, w_{22}, b_1, b_2$ 更新时用到了 $w_{13}, w_{23}$ ，开始这两个初始化为0了，所以这几个参数未能更新，依然是0.

第二个batch， $w_{13}, w_{23}$ 两个权重相同，反向传播的时候 $w_{11}$ 和 $w_{12}$ 相同， $w_{21}$ 和 $w_{22}$ 相同，同样的， $a_1=a_2$ ，由于 $a_1=a_2$ ,反向传播会导致 $w_{13}, w_{23}$ 可以得到更新但是两个权重均相同。

第n个batch，每一隐藏层的权重都能得到更新，但是存在每一隐藏层的隐藏神经元权重都是一致的，也就是说，同一隐藏层所有神经元的输出都一致。

2.4.2 w初始化为0，b随机初始化

第一个batch，前向传播 $a_1 = sigmoid(b_1), a_2 = sigmoid(b_2), a_3 = sigmoid(b_3)$ , 反向传播会 $w_{13}, w_{23}, b_3$ 可以得到更新， $w_{11}, w_{21}, w_{12}, w_{22}, b_1, b_2$ 更新时用到了 $w_{13}, w_{23}$ ，开始这两个初始化为0了，所以这几个参数未能更新，依然是0.

第二个batch，反向传播的过程中，由于 $w_{13}, w_{23}$ 不为0，导致所有的参数都能够得到更新。

2.4.3 w随机初始化，b初始化为0

前向传播过程中， $a_1, a_2$ 均不为0，反向传播的过程中各参数均可以更新

欢迎关注微信公众号（算法工程师面试那些事儿)，本公众号聚焦于算法工程师面试，期待和大家一起刷leecode，刷机器学习、深度学习面试题等，共勉～

算法工程师面试那些事儿

技术共进，成长同行——讯飞AI开发者社区

更多推荐

2025高校新设专业揭秘：这些方向毕业即拿30万年薪！从零基础到精通，理论与实践结合的最佳路径！

讯飞AI开发者社区

机器学习赋能金融风控新纪元

访问官网（www.cnki.net），在搜索栏输入主题关键词（如“人工智能教育应用”），选择“文献”类别，筛选“中文文献”或“CSSCI来源期刊”等条件。平台（www.wanfangdata.com.cn）支持关键词组合检索，例如“区块链+金融”并勾选“核心期刊”。高级检索中可限定学科分类（如“计算机科学”）。由于您尚未提供具体的主题内容（如“[输入主题内容]”部分需要替换为实际关键词），暂时无法