过拟合与欠拟合：机器学习模型的两大陷阱及学习曲线诊断

定义：绘制训练集误差与验证集误差随训练样本数量变化的曲线。作用诊断模型是过拟合、欠拟合还是正常指导数据增强或模型复杂度调整核心指标训练误差（Training Error）：(E_{train} = \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2)验证误差（Validation Error）：在独立验证集上的误差偏差（Bias）：模型预测值与真实值的期望差距

六月五日

796人浏览 · 2025-06-02 21:42:23

六月五日 · 2025-06-02 21:42:23 发布

过拟合与欠拟合：机器学习模型的两大陷阱及学习曲线诊断

一、过拟合与欠拟合：模型的两种失败形态

1.1 过拟合（Overfitting）：死记硬背的模型

定义：模型过度学习训练数据中的噪声和细节，导致在新数据上表现不佳。
直观比喻：学生只背考试例题，却不懂解题原理，遇到新题型就出错。
原因：
- 模型复杂度过高（如10次多项式拟合20个样本）
- 训练数据量不足
- 缺乏正则化约束

示例：用10次多项式拟合正弦函数，模型记住了所有训练点的噪声，却丢失了正弦曲线的本质规律。

1.2 欠拟合（Underfitting）：理解不足的模型

定义：模型过于简单，无法捕捉数据的基本模式。
直观比喻：学生只学了加减乘除，却要解决微积分问题。
原因：
- 模型复杂度太低（如线性模型拟合非线性数据）
- 特征选择不当（遗漏关键特征）
- 训练不充分

二、学习曲线：诊断模型状态的X光片

2.1 学习曲线的定义与作用

定义：绘制训练集误差与验证集误差随训练样本数量变化的曲线。
作用：
- 诊断模型是过拟合、欠拟合还是正常
- 指导数据增强或模型复杂度调整
核心指标：
- 训练误差（Training Error）：(E_{train} = \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2)
- 验证误差（Validation Error）：在独立验证集上的误差

2.2 过拟合的学习曲线特征

曲线形态：
- 训练误差低且持续下降
- 验证误差先降后升，与训练误差差距大（>10%）

解读：模型在训练集上表现好，但泛化能力差，如图：

误差
↑
|    验证误差 ●   ●  
|   /       \   /
|  /         \ /
| /           ●
|●_____________→ 训练样本数

2.3 欠拟合的学习曲线特征

曲线形态：
- 训练误差和验证误差都高
- 两者差距小（<5%），且随样本数增加下降缓慢

解读：模型复杂度不足，如图：

误差
↑
|   ● 训练误差    
|  / \ 验证误差  
| /   \  
|●_______→ 训练样本数

三、学习曲线的代码实现与解读

3.1 生成学习曲线（Python）

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import learning_curve

# 生成非线性数据
def generate_nonlinear_data(n_samples=100):
    np.random.seed(42)
    x = np.sort(np.random.uniform(0, 10, n_samples))
    y = 0.5 * x**2 + x + 2 + np.random.normal(0, 3, n_samples)
    return x.reshape(-1, 1), y

# 绘制学习曲线
def plot_learning_curve(estimator, title, X, y, ylim=None, cv=5,
                        n_jobs=None, train_sizes=np.linspace(.1, 1.0, 5)):
    plt.figure()
    if ylim is not None:
        plt.ylim(*ylim)
    plt.title(title)
    plt.xlabel("训练样本数")
    plt.ylabel("误差")
    
    # 计算学习曲线
    train_sizes, train_scores, test_scores = learning_curve(
        estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes)
    
    # 计算均值和标准差
    train_scores_mean = np.mean(train_scores, axis=1)
    train_scores_std = np.std(train_scores, axis=1)
    test_scores_mean = np.mean(test_scores, axis=1)
    test_scores_std = np.std(test_scores, axis=1)
    
    # 绘制曲线
    plt.grid()
    plt.fill_between(train_sizes, train_scores_mean - train_scores_std,
                     train_scores_mean + train_scores_std, alpha=0.1, color="r")
    plt.fill_between(train_sizes, test_scores_mean - test_scores_std,
                     test_scores_mean + test_scores_std, alpha=0.1, color="g")
    plt.plot(train_sizes, train_scores_mean, 'o-', color="r", label="训练误差")
    plt.plot(train_sizes, test_scores_mean, 'o-', color="g", label="验证误差")
    plt.legend(loc="best")
    return plt

# 测试不同复杂度模型
X, y = generate_nonlinear_data()

# 欠拟合：线性模型
plot_learning_curve(LinearRegression(), "线性模型（欠拟合）", X, y, ylim=(0, 10), cv=5)

# 过拟合：10次多项式模型
poly10 = Pipeline([('poly', PolynomialFeatures(degree=10)),
                  ('linear', LinearRegression())])
plot_learning_curve(poly10, "10次多项式（过拟合）", X, y, ylim=(0, 10), cv=5)

# 合适模型：3次多项式
poly3 = Pipeline([('poly', PolynomialFeatures(degree=3)),
                 ('linear', LinearRegression())])
plot_learning_curve(poly3, "3次多项式（合适）", X, y, ylim=(0, 10), cv=5)
plt.show()

四、过拟合与欠拟合的解决方案

4.1 过拟合的应对策略

增加数据量：
- 数据增强（如图像旋转、翻转）
- 迁移学习（利用预训练模型）
降低模型复杂度：
- 正则化（L1/L2正则化）：(L = L_{loss} + \lambda\sum|\theta_j|) 或 (L = L_{loss} + \lambda\sum\theta_j^2)
- 早停（Early Stopping）：验证误差上升时停止训练
集成学习：
- 随机森林通过样本和特征随机化降低方差