【深度学习基础】第十九课：Adam优化算法

【深度学习基础】系列博客为学习Coursera上吴恩达深度学习课程所做的课程笔记。

qq_34222839

1590人浏览 · 2025-03-12 20:29:03

qq_34222839 · 2025-03-12 20:29:03 发布

【深度学习基础】系列博客为学习Coursera上吴恩达深度学习课程所做的课程笔记。

1.Adam优化算法

Adam优化算法（Adaptive Moment Estimation）和RMSprop、Momentum梯度下降法是被广泛应用并且经受了大量考验的优化算法，适用于不同的深度学习结构。

Adam优化算法实际上就是将RMSprop和Momentum结合在一起。

接下来看下Adam优化算法的详细步骤：

初始化： $V_{dw}=0,S_{dw}=0,V_{db}=0,S_{db}=0$
On iteration t:
- Compute $d w, d b$ using current mini-batch
- $V_{dw}=\beta _1 V_{dw}+(1-\beta_1)dw;V_{db}=\beta _1 V_{db}+(1-\beta_1)db$
- $S_{dw}=\beta_2 S_{dw}+(1-\beta_2)(dw)^2;S_{db}=\beta_2 S_{db}+(1-\beta_2)(db)^2$
- $V^{corrected}_{dw}=V_{dw}/(1-\beta _1^t);V^{corrected}_{db}=V_{db}/(1-\beta_1 ^t)$
- $S^{corrected}_{dw}=S_{dw}/(1-\beta _2^t);S^{corrected}_{db}=S_{db}/(1-\beta_2 ^t)$
- $w:=w-\alpha \frac{V^{corrected}_{dw}}{\sqrt{S^{corrected}_{dw}}+\epsilon};b:=b-\alpha \frac{V^{corrected}_{db}}{\sqrt{S^{corrected}_{db}}+\epsilon}$

Adam算法涉及很多超参数：

$\alpha$ ：学习率，需要自行尝试得到合适的值。
$\beta_1$ ：常用的值是0.9。
$\beta_2$ ：Adam算法的发明者推荐使用0.999。
$\epsilon$ ：Adam算法的发明者建议为 $10^{-8}$ 。

其中超参数 $\beta_1,\beta_2,\epsilon$ 通常使用推荐值即可，没有调整的必要，对结果影响不大。

后续提出的AdamW则可用来解决Adam优化器中L2正则化失效的问题。Adam算法参数更新的计算公式如下（和上面是一样的，只是换了种表示方式）：

$t = t + 1$

$moment\_1\_out = \beta _1 * moment\_1 + (1-\beta _1) * grad$

$moment\_2\_out = \beta_2 * moment\_2 + (1-\beta_2) * grad * grad$

$learning\_rate = learning\_rate * \frac{\sqrt{1-\beta_2^t}}{1-\beta_1^t}$

$param\_out = param - learning\_rate * \frac{moment\_1}{\sqrt{moment\_2} + \epsilon}$

AdamW算法参数更新的计算公式如下：

$t = t + 1$

$moment\_1\_out = \beta_1 * moment\_1 + (1 - \beta_1) * grad$

$moment\_2\_out = \beta_2 * moment\_2 + (1-\beta_2) * grad * grad$

$learning\_rate = learning\_rate * \frac{\sqrt{1-\beta_2^t}}{1-\beta_1^t}$

$param\_out = param - learning\_rate * ( \frac{moment\_1}{\sqrt{moment\_2} + \epsilon} + \lambda * param )$

2.参考资料

Adam
AdamW

想要获取最新文章推送或者私聊谈人生，请关注我的个人微信公众号：⬇️x-jeff的AI工坊⬇️

个人博客网站：https://shichaoxin.com

GitHub：https://github.com/x-jeff

技术共进，成长同行——讯飞AI开发者社区

技术共进，成长同行——讯飞AI开发者社区

更多推荐

cover

【零基础学AI】第29讲：BERT模型实战 - 情感分析

讯飞AI开发者社区

cover

【机器学习&深度学习】多分类评估策略：混淆矩阵计算场景模拟示例

讯飞AI开发者社区

cover

【AI大模型】循环神经网络（RNN）：序列建模的核心引擎

讯飞AI开发者社区

所有评论(0)

查看更多评论

qq_34222839

已为社区贡献15条内容