深度学习训练（优化）参数的玄学解释

优化的目标：更好、更快梯度局部最小优化的头号敌人是梯度为零，梯度为零即有众所周知的局部最小，还有鞍部点。但幸好在高维空间局部最小并非经常出现，例如下面左图，在一维空间上红点是局部最小，但在二维空间上红点是鞍部点。实际模型参数空间十分复杂，在右侧二维空间的局部最小也在高维空间中大多不是局部最小。batch size用大batch size还是小的呢？较大的batch size训练更快，较小的batc

there2belief

765人浏览 · 2021-04-07 22:59:56

there2belief · 2021-04-07 22:59:56 发布

优化的目标：更好、更快

梯度局部最小

优化的头号敌人是梯度为零，梯度为零即有众所周知的局部最小，还有鞍部点。

但幸好在高维空间局部最小并非经常出现，例如下面左图，在一维空间上红点是局部最小，但在二维空间上红点是鞍部点。实际模型参数空间十分复杂，在右侧二维空间的局部最小也在高维空间中大多不是局部最小。

batch size

用大batch size还是小的呢？较大的batch size训练更快，较小的batch size精度和泛化能力更好。

What？batch size不是越大越好么？实际上不是的。较大batch容易得到陡峭的最优，但越陡峭模型在测试时容易不太稳定，泛化能力减弱。但是经过特别的设计，大的batch可以又快又好。

那平时训练时是不是用batch 1与8差别会很大呢？不是的。batch大小的差别到10k上才会有显著的差异。可以放心用“大”一点的batch了。

Momentum

既然局部最优是坑，那怎么趟过去呢？那就不要只看局部，便有了momentum（类似物理学动量），考虑之前所有梯度。

学习率

不同的参数需要不同学习率才能学习的较好，那么有没有什么自动的方法呢？最经典的就是Adam:RMSProp+momentum

上面没有直接修改学习率，对梯度小的情况有良好的改善，但还是可能出现问题

那么一些学习率调整策略（黑科技）便被提了出来，一是学习率衰减，而是warm up。学习率调整的策略（poly,cosine等结合warmup）目前也基本是各种训练的标配

损失函数

在one-hot问题中交叉熵优于MSE

batch normalization

之前已经知道模型空间十分复杂，看起来崎岖陡峭，不同维度梯度差异显著，这种情况下优化就比较费劲。那通过平滑岂不就让训练变容易。所以我们常对输入数据进行归一化，同理对特征层也可以归一化，比如batch normalization。正如下图所示

对特征做归一化和对输入数据做是相似的方法。实际上对输入数据是否做归一化，对训练影响不大（个人经验）。

这里蓝线比黑色虚线在效率和精度上都有显著提升…真实神器

参考：李宏毅机器学习

https://www.bilibili.com/video/BV1Wv411h7kN?p=7

技术共进，成长同行——讯飞AI开发者社区

技术共进，成长同行——讯飞AI开发者社区

更多推荐

cover

2025全国 AI 证书含金量排名

讯飞AI开发者社区

cover

2025 年PT展前瞻：人工智能+如何走进普通人的生活？

讯飞AI开发者社区

大数据如何改变房地产行业的市场预测与投资决策

房地产市场的数据来源非常广泛，但不同来源的数据质量参差不齐，数据的准确性直接影响到分析结果的可靠性。例如，通过对不同城市和区域的经济发展状况、人口流动趋势、政策导向等数据的分析，可以预测未来某一地区的房价增长潜力，为投资者提供明确的投资方向。在具体的应用中，大数据能够根据实时的市场动态，对市场价格、成交量等数据进行实时更新，从而为投资者提供最新的市场信息。在未来，随着人工智能和机器学习等技术的进一

讯飞AI开发者社区

所有评论(0)

查看更多评论

there2belief

已为社区贡献15条内容