模型训练优化器

原文：https://zhuanlan.zhihu.com/p/32230623https://blog.csdn.net/w113691/article/details/82631097https://www.cnblogs.com/GeekDanny/p/9655597.html深度学习优化算法经历了 SGD -> SGDM -&g...

CVer儿

762人浏览 · 2019-11-27 09:14:13

CVer儿 · 2019-11-27 09:14:13 发布

原文：https://zhuanlan.zhihu.com/p/32230623

https://blog.csdn.net/w113691/article/details/82631097

https://www.cnblogs.com/GeekDanny/p/9655597.html

深度学习优化算法经历了 SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 这样的发展历程。

开始进行迭代优化。在每个epoch [公式] ：

计算目标函数关于当前参数的梯度：
根据历史梯度计算一阶动量和二阶动量：，
计算当前时刻的下降梯度：
根据下降梯度进行更新：

SGD最大的缺点是下降速度慢，而且可能会在沟壑的两边持续震荡，停留在一个局部最优点。

SGD with Momentum

为了抑制SGD的震荡，SGDM认为梯度下降过程可以加入惯性。下坡的时候，如果发现是陡坡，那就利用惯性跑的快一些。SGDM全称是SGD with momentum，在SGD基础上引入了一阶动量：

AdaGrad

此前我们都没有用到二阶动量。二阶动量的出现，才意味着“自适应学习率”优化算法时代的到来。SGD及其变种以同样的学习率更新每个参数，但深度神经网络往往包含大量的参数，这些参数并不是总会用得到（想想大规模的embedding）。对于经常更新的参数，我们已经积累了大量关于它的知识，不希望被单个样本影响太大，希望学习速率慢一些；对于偶尔更新的参数，我们了解的信息太少，希望能从每个偶然出现的样本身上多学一些，即学习速率大一些。

怎么样去度量历史更新频率呢？那就是二阶动量——该维度上，迄今为止所有梯度值的平方和：

AdaDelta / RMSProp

由于AdaGrad单调递减的学习率变化过于激进，我们考虑一个改变二阶动量计算方法的策略：不累积全部历史梯度，而只关注过去一段时间窗口的下降梯度。这也就是AdaDelta名称中Delta的来历。

修改的思路很简单。前面我们讲到，指数移动平均值大约就是过去一段时间的平均值，因此我们用这一方法来计算二阶累积动量：这就避免了二阶动量持续累积、导致训练过程提前结束的问题了。

Adam

谈到这里，Adam和Nadam的出现就很自然而然了——它们是前述方法的集大成者。我们看到，SGD-M在SGD基础上增加了一阶动量，AdaGrad和AdaDelta在SGD基础上增加了二阶动量。把一阶动量和二阶动量都用起来，就是Adam了——Adaptive + Momentum。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

2025年互联网行业高价值专业证书分析与推荐

讯飞AI开发者社区

面向复杂决策的AI Agent深度协同与信息共享机制

讯飞AI开发者社区

浅谈人工智能

这就要追溯到1950年，1950年，图灵在那篇名垂青史的论文《计算机械与智力》里面，阿兰·图灵表达了对人工智能发展的信心，在这篇文章里面，图灵提出了一个模仿游戏：“一场正常的模仿游戏有ABC三人参与，A是男性，B是女性，两人坐在房间里；“这里面我认为最大的漏洞就是，在这个Chinese room argument中预先的肯定了一套指令集（能够根据问题查找对照手册的程序）的存在，而且这个实验只是测翻