深度学习——过拟合和欠拟合处理

深度学习中过拟合和欠拟合的处理方式

bulingg

228人浏览 · 2023-05-07 17:04:00

bulingg · 2023-05-07 17:04:00 发布

训练集，验证集，测试集：
训练集用于模型的训练
验证集用于模型选择和调参（监控模型是否过拟合）
测试集用于评估最终模型的泛华性能

过拟合

过拟合是表示模型在训练数据上效果很好，但是在验证机和测试集上效果较差。
常用的解决办法有：

dropout（随机失活）：以一定概率将神经元失活，但保持均值不变 $E (x) = E (x ’)$
$1−px’=\begin{cases} 0,\ p\\ \frac{x}{1-p},\ 1-p\\ \end{cases}$
weight decay（权重衰退，在sgd中与正则化类似）
$f(x)=l(x)+λ∑iθi2min\ f(x)=l(x)+\lambda\sum_{i}\theta_{i}^{2}$
对值较大的参数进行惩罚，使得网络参数较小，能够满足预测函数更加平滑
early stop
提前停止训练，即设置较小的epoch
增大数据集
增加训练集，使得训练域包含到验证集和测试集
降低模型复杂度
当模拟过于复杂时，将不属于数据集的特征也捕捉到，因此尝试降低模型复杂度（深度，宽度）

欠拟合

欠拟合是表示模型在数据集上的效果都很差，即没有捕捉到数据的特征

提高模型复杂度
加大训练次数（train epoch）
合适的参数初始化
常用的有xavier初始化，constant，normal初始化
选择合适的优化器
常用的由SGD，Adam，AdamW，BFGS等，可以多个结合
学习率
学习率过大会导致忽略掉最优解，而过小会导致模型训练效率低下。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

AI预测设备故障，智能制造新突破

智能制造设备产生的海量数据为人工智能提供了丰富的信息来源。集成学习方法通过组合多个基模型的预测结果，显著提升故障分类的准确率。图神经网络（GNN）能够建模设备组件间的拓扑关系，将轴承、齿轮和电机的监测数据转化为统一的特征表示。迁移学习框架允许模型将在某类设备上学习的知识迁移到新型号设备，显著减少对新故障样本的需求。联邦学习方案确保不同工厂的数据在本地进行模型训练，仅共享加密的梯度更新，满足数据隐私