1,Adding Batch Norm to a network

每一层除了W,b,多了两个参数beta 和 gamma。beta和gamma也需要计算梯度,并在反向传播时使用优化算法进行更新。

 

2,Working with mini-batch

对于每一个mini-batch来说,每一层按道理应该有w,b,beta,gamma四组参数,但是由于做归一化,加上b之后,也会由于归一化会减去b,所以这种情况下,参数b是没有意义的。因此每一层值剩下三组参数,w,beta,gamma。

 

3,Implementing gradient descent

beta和gamma也需要计算梯度,并在反向传播时使用优化算法进行更新。

 

关于batch norm 的实现可以参考李沐《动手学深度学习》。

http://tangshusen.me/Dive-into-DL-PyTorch/#/chapter05_CNN/5.10_batch-norm

 

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐