深度学习基础----梯度裁剪
背景:BP在产生的过程中:会产生梯度消失/梯度爆炸。 为了阻止这种情况发生优点与缺点:优点:简单粗暴缺点:很难找到满意的阈值代码:torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=20)参考:https://www.cnblogs.com/lindaxin/p/7998196.html...
·
背景:
- BP在产生的过程中:会产生梯度消失/梯度爆炸。 为了阻止这种情况发生
优点与缺点:
- 优点:简单粗暴
- 缺点:很难找到满意的阈值
代码:
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=20)
更多推荐
所有评论(0)