TensorFlow2.0之五种神经网络参数优化器

五种参数优化器1 SGD（不含momentum的梯度下降算法）2 SGDM（含momentum的梯度下降算法，在SGD基础上增加一阶动量）3 Adagrad（在SGD基础上增加二阶动量）4 RMSProp（在SGD基础上增加二阶动量）5 Adam（同时结合SGDM一阶动量和RMSProp二阶动量）

Dymc

1630人浏览 · 2020-08-27 19:17:49

Dymc · 2020-08-27 19:17:49 发布

TensorFlow2.0之五种神经网络参数优化器

一、参数优化器简介
二、五种参数优化器
总结

一、参数优化器简介

待优化参数w，损失函数loss，学习率Ir，每次迭代一个batch，t表示当前batch迭代的总次数：
1，计算时刻损失函数关于当前参数的梯度 $g_{t} = \frac{\partial loss}{\partial (w_{t})}$
2，计算t时刻一阶动量 $m_{t}$ ，和二阶动量 $V_{t}$ ，
3，计算时刻下降梯度： $\eta _{t}=lr * \frac{m}{\sqrt{V}}$
4，计算t+1时刻参数: $w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{m}{\sqrt{V}}$
一阶动量：与梯度相关的函数
二阶动量：与梯度平方相关的函数
客观来说，需优化的参数仅为输入的权重w和偏置b，不需要优化输入的特征值和超参数，并且优化器之间的差异也是因一阶动量和二阶动量赋值不同而不同。下面来分别详细介绍SGD、SGDM、Adagrad、Rmsprop、Adam五种参数优化器。

二、五种参数优化器

2.1 SGD（不含momentum的梯度下降算法）

$m_{t} = g_{t}$ ， $V_{t} = 1$
$\eta _{t}=lr * \frac{m_{t}}{\sqrt{V_{t}}} = lr * g_{t}$
$w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{m_{t}}{\sqrt{V_{t}}} = w_{t} - lr * g_{t}$

2.2 SGDM（含momentum的梯度下降算法，在SGD基础上增加一阶动量）

$m_{t} = \beta m_{t-1} + (1-\beta)g_{t}$ ， $V_{t} = 1$
$\eta _{t}=lr * \frac{m_{t}}{\sqrt{V_{t}}} = lr * m_{t} = lr *[ \beta m_{t-1} + (1-\beta)g_{t}]$
$w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{m_{t}}{\sqrt{V_{t}}} = w_{t} - lr *[ \beta m_{t-1} + (1-\beta)g_{t}]$

注： $\beta = 0.9$

2.3 Adagrad（在SGD基础上增加二阶动量）

$m_{t} = g_{t}$ ， $V_{t} = \sum_{t=1}^{t} g_{t}^{2}$
$\eta _{t}=lr * \frac{m_{t}}{\sqrt{V_{t}}} = lr * \frac{g_{t}}{\sqrt{\sum_{t=1}^{t} g_{t}^{2}}}$
$w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{m_{t}}{\sqrt{V_{t}}} = w_{t} - lr * \frac{g_{t}}{\sqrt{\sum_{t=1}^{t} g_{t}^{2}}}$

2.4 RMSProp（在SGD基础上增加二阶动量）

$m_{t} = g_{t}$ ， $V_{t} = \beta V_{t-1}+(1-\beta) g_{t}^{2}$
$\eta _{t}=lr * \frac{m_{t}}{\sqrt{V_{t}}} = lr * \frac{g_{t}}{\sqrt{ \beta V_{t-1}+(1-\beta) g_{t}^{2}}}$
$w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{m_{t}}{\sqrt{V_{t}}} = w_{t} - lr * \frac{g_{t}}{\sqrt{ \beta V_{t-1}+(1-\beta) g_{t}^{2}}}$

注： $\beta = 0.9$

2.5 Adam（同时结合SGDM一阶动量和RMSProp二阶动量）

$m_{t} = \beta_{1} m_{t-1} + (1 - \beta_{1})g_{t}$ ， $V_{t} = \beta_{2} V_{t-1}+(1-\beta_{2}) g_{t}^{2}$
对 $m_{t}$ 和 $v_{t}$ 分别进行修正动量的偏差，改为：
$\hat{m_{t}} = \frac{m_{t}}{1-\beta_{1}^{t}}$
$\hat{V_{t}} = \frac{v_{t}}{1-\beta_{2}^{t}}$
$\eta _{t}=lr * \frac{\hat{m_{t}} }{\sqrt{\hat{V_{t}}}}$
$w_{t+1}=w_{t}-\eta_{t}=w_{t}-lr * \frac{\hat{m_{t}} }{\sqrt{\hat{V_{t}}}}$

注： $\beta1 = 0.9$ ， $\beta2=0.999$

总结

1.当lr=0.1 epoch=500 batch=32

loss变化趋势：
在这里插入图片描述
acc精确度变化趋势:

训练消耗时间：

从对比图中不难看出，损失函数loss衰减趋势图，Adam优化器衰减速度更快，且精确度在epoch=100后表现较为稳定，但是训练时间比前四个都要长，但为了得到较稳定的精确度，往往会以时间换准确度。

将参数改动，变为lr=0.01 epoch=100 batch=32

loss变化趋势：
在这里插入图片描述
准确度变化趋势：

训练耗时：

和之前的类似，就损失函数衰减的速度和结果准确率而言，还是Adam优化器比较占优势，但是由于调整了学习率lr和迭代的次数epoch，在时间上大大减少，均在2~4秒之间。

综上所述表明，找到适合的优化模型、学习率大小和迭代次数对模型的优化至关重要。同时Adam优化器可以作为常用优化器。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

程序员必学！大模型五大核心技术(MCP/Agent/RAG/RPA/A2A)全解析（收藏版）

讯飞AI开发者社区

自然语言处理（NLP）基础

苹果”可以指一种水果，也可能指Apple 公司；“我今天早上没吃饭”中的“没”是否表示“完全没有”需要结合上下文。NLP 的任务就是让计算机能够“读懂”这些文字和语音，抽取其中的语义信息，从而与人类进行自然交流。简单来说，NLP 是计算机科学、人工智能与语言学的交叉学科。自然语言处理（NLP）让计算机能够理解和生成自然语言，是人工智能最贴近人类日常生活的技术之一。随着深度学习和大模型的发展，NLP

讯飞AI开发者社区

构建综合交通运输大模型：驱动交通强国建设的智能技术底座

最后，本文前瞻性地指出了在数据融合、模型复杂性、安全伦理等方面面临的挑战，并提出了相应的对策建议，以期为我国“人工智能+交通运输”的战略实施提供理论参考与实践指引。通过夯实“数据、算法、工具链”三大支柱，成功打造这一强大的智能技术底座，必将为我国构建安全、便捷、高效、绿色、经济的现代化综合交通体系提供核心驱动力，最终实现“人享其行、物畅其流”的美好愿景。通过对桥梁、隧道、轨道等基础设施的实时监测数