李宏毅机器学习复习——第三章:梯度下降
概述梯度下降是寻找损失函数最小的一种方法。参数调整在使用这个方法中,学习率这个参数很重要,学习率高,往往容易跨过最小的损失函数。学习率低,模型提升效果不明显。因此需要使用adagrad方法来改变学习率,刚开始学的快一些,接近于损失函数时,学习率低一些。adagrad更新学习率的方式,可以通过损失函数参数变化程度来影响学习率。一个参数的一次微分 / 它自身的二次微分,用来消除参数的不同,对学习率的影
·
概述
梯度下降是寻找最小的损失函数的一种方法。
选择合适的参数,可以更加顺利地降低损失函数,找到模型的最优解。
参数调整
在使用这个方法中,学习率这个参数很重要,学习率高,往往容易‘略过’最小的损失函数。学习率低,损失函数降低不明显。
adagrad方法是改变学习率的一种方式。主要通过损失函数参数变化程度来影响学习率。一个参数的一次微分 / 它自身的二次微分,用来消除参数之间变化的不同,对学习率的影响。
特征对损失函数的影响。降低特征的影响就可以使用特征缩放功能。feature scaling,特征缩放可以使损失函数更容易收敛。
梯度下降的局限
梯度下降的缺点:可能只能找到局部最优解。如果使凸优化问题,就可以找到最优解。
更多推荐
所有评论(0)