【深度学习-Day 39】玩转迁移学习与模型微调：站在巨人的肩膀上

我们将从迁移学习的核心思想出发，系统性地解析其工作原理、关键策略（如特征提取、分层微调），并详细介绍如何根据不同场景选择最合适的微调方案。最后，本文将通过一个完整的 PyTorch 实战案例，手把手教你如何加载预训练的 ResNet 模型，并将其成功微调应用于新的图像分类任务。无论你是希望快速实现项目落地的初学者，还是寻求提升模型性能的进阶者，本文都将为你提供清晰的理论指导和可复现的实践代码。

大模型铲屎官

1509人浏览 · 2025-07-22 09:00:00

大模型铲屎官 · 2025-07-22 09:00:00 发布

Langchain系列文章目录

01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南
 02-玩转 LangChain Memory 模块：四种记忆类型详解及应用场景全覆盖
 03-全面掌握 LangChain：从核心链条构建到动态任务分配的实战指南
 04-玩转 LangChain：从文档加载到高效问答系统构建的全程实战
 05-玩转 LangChain：深度评估问答系统的三种高效方法（示例生成、手动评估与LLM辅助评估）
06-从 0 到 1 掌握 LangChain Agents：自定义工具 + LLM 打造智能工作流！
07-【深度解析】从GPT-1到GPT-4：ChatGPT背后的核心原理全揭秘
 08-【万字长文】MCP深度解析：打通AI与世界的“USB-C”，模型上下文协议原理、实践与未来

深度学习系列文章目录

摘要

在深度学习的实践中，我们常常面临两大挑战：训练数据不足和计算资源有限。从零开始训练一个高性能的深度神经网络不仅需要海量标注数据，还需要消耗巨大的计算时间和成本。本文将深入探讨一种强大而高效的解决方案——迁移学习 (Transfer Learning) 与 模型微调 (Fine-tuning)。我们将从迁移学习的核心思想出发，系统性地解析其工作原理、关键策略（如特征提取、分层微调），并详细介绍如何根据不同场景选择最合适的微调方案。最后，本文将通过一个完整的 PyTorch 实战案例，手把手教你如何加载预训练的 ResNet 模型，并将其成功微调应用于新的图像分类任务。无论你是希望快速实现项目落地的初学者，还是寻求提升模型性能的进阶者，本文都将为你提供清晰的理论指导和可复现的实践代码。

一、为什么需要迁移学习？

在深入技术细节之前，我们首先要理解一个根本问题：为什么我们不总是从零开始训练模型？

1.1 从零训练的困境

想象一下，你要训练一个能识别各种猫品种的模型。要达到高精度，理想情况下，你需要一个包含数十万甚至上百万张、涵盖各种品种、角度、光照条件的猫图片数据集。这会带来几个严峻的挑战：

数据成本高昂： 获取并标注如此大规模的数据集是一项耗时耗力的工程。
计算资源巨大： 在大型数据集上训练一个深度神经网络（如 ResNet、VGG）需要强大的 GPU 支持，并且可能需要数天甚至数周的训练时间。
知识无法复用： 每次遇到一个新的、类似的任务（比如识别狗的品种），你都需要重复上述整个过程，之前训练猫识别模型所学到的知识被完全浪费了。

这就像要求一位厨师，每次做一道新菜时，都必须从种植蔬菜、饲养牲畜开始。显然，这效率极低。如果能直接使用市场上处理好的半成品食材，烹饪过程将大大简化。迁移学习扮演的就是“半成品食材”的角色。

1.2 迁移学习的核心思想

迁移学习 (Transfer Learning) 的核心思想是将在一个任务（源任务, Source Task）上学到的知识，应用到一个不同但相关的任务（目标任务, Target Task）上。

在深度学习领域，这个“知识”通常指的是模型的权重参数。我们在一个大规模、通用的数据集（如 ImageNet，包含1000个类别、超过120万张图片）上训练好的模型，被称为预训练模型 (Pre-trained Model)。这些模型，尤其是它们的底层网络，已经学会了如何识别非常基础和通用的视觉特征，例如边缘、纹理、颜色块、形状等。这些特征对于大多数视觉任务都是通用的。

因此，当我们面临一个新的、数据量较小的目标任务时，我们不必从随机初始化的权重开始训练，而是可以“借用”这些预训练模型学到的通用特征提取能力，只需在其基础上进行少量调整，使其适应我们的新任务即可。

二、迁移学习的关键要素与策略

成功实施迁移学习，需要理解两个关键要素：选择合适的预训练模型和采用正确的微调策略。

2.1 预训练模型 (Pre-trained Models)

2.1.1 什么是预训练模型？

预训练模型是在大型基准数据集上预先训练好的神经网络。这些模型通常由顶级研究机构或公司发布，可以直接被我们使用。

对于计算机视觉 (CV) 任务： 大多数预训练模型是在 ImageNet 数据集上训练的。经典的代表有 LeNet-5, AlexNet, VGG, GoogLeNet, 以及至今仍被广泛使用的 ResNet 及其变体。
对于自然语言处理 (NLP) 任务： 预训练模型通常在巨大的文本语料库（如维基百科、书籍）上进行训练。著名的模型有 Word2Vec, GloVe, 以及现代的 BERT, GPT 系列。

这些模型的价值在于，它们的网络层级结构已经捕获了从通用到特定的特征层次。以图像为例：

浅层网络 学习通用特征，如边缘和颜色。
中层网络 学习更复杂的特征，如纹理和简单形状组合。
深层网络 学习更抽象、更接近具体类别的特征，如物体的部件。

2.1.2 如何选择合适的预训练模型？

选择模型时，通常需要权衡以下几点：

考虑因素	说明	示例
任务相关性	预训练模型的源任务应与你的目标任务尽可能相似。例如，用于自然图像分类的 ImageNet 预训练模型，在用于医学影像分析时可能效果稍差，但仍优于从零训练。	ImageNet 预训练模型非常适合大多数自然场景的图像分类。
模型性能	通常，更深、更复杂的模型（如 ResNet152）在源任务上的性能更好，可能包含更丰富的特征表示。	ResNet-50 通常比 ResNet-18 性能更强。
计算成本	模型越复杂，参数量越大，推理和微调所需的计算资源（GPU显存、计算时间）也越多。	在移动端或资源受限的设备上，可能会选择 MobileNet 或 ResNet-18 而非 ResNet-152。

各大深度学习框架（如 PyTorch, TensorFlow）都提供了模型库（Model Zoo），可以方便地加载这些预训练模型。

2.2 模型微调的核心策略

模型微调 (Fine-tuning) 是指将预训练模型适配到新任务上的过程。核心在于决定**“冻结”哪些层**，“训练”哪些层。这通常取决于新数据集的大小以及它与预训练数据集的相似度。

2.2.1 策略一：作为特征提取器 (Feature Extractor)

这是最保守也最简单的策略。我们冻结预训练模型的所有层（或大部分层），只将其作为一个固定的特征提取工具。

适用场景：
1. 目标数据集非常小。
2. 目标数据集与源数据集差异较大。
操作步骤：
1. 加载预训练模型。
2. 冻结所有层的参数，使其在训练中不被更新。
3. 替换掉模型原有的最终分类层（分类头），换成一个为我们新任务定制的新分类层。
4. 只训练这个新的分类层。

2.2.2 策略二：微调部分或全部层 (Fine-tuning Some/All Layers)

当我们的数据集稍大一些，或者与源数据集比较相似时，我们可以让预训练模型的部分或全部知识进行“微调”，以更好地适应新数据。

（1）微调部分卷积层

适用场景： 目标数据集中等大小，且与源数据集较为相似。
操作步骤：
1. 加载预训练模型并替换分类头。
2. 冻结模型的前面一部分层（例如，ResNet 的前几个 block）。因为这些层学习的是非常通用的特征（边缘、纹理），我们希望保留它们。
3. 解冻模型的后面一部分层和新的分类头。
4. 用一个非常小的学习率来训练这些解冻的层。

（2）微调所有层

适用场景： 目标数据集较大，且与源数据集非常相似。
操作步骤：
1. 加载预训练模型并替换分类头。
2. 解冻整个模型的所有层。
3. 用一个极小的学习率来训练整个网络。这相当于将预训练的权重作为一个非常好的初始化，然后在整个网络上继续训练。

2.3 关键技巧：差异化学习率 (Differential Learning Rates)

这是一个非常重要且实用的高级技巧。即使我们决定微调整个模型，模型不同部分的学习“速度”也应该是不同的。

靠近输入的层（浅层）学习的是通用特征，我们希望对它们的改动尽可能小。
靠近输出的层（深层）以及新添加的分类头学习的是更具体的特征，需要有更大的调整空间。

因此，我们可以为网络的不同部分设置不同的学习率：给浅层设置一个非常小的学习率，给深层设置一个稍大的学习率，给全新的分类头设置一个最大的学习率。这可以有效防止预训练学到的优秀特征在微调过程中被“灾难性遗忘”(Catastrophic Forgetting)。

三、实战：使用 PyTorch 微调 ResNet18 进行图像分类

下面，我们将通过一个完整的例子，演示如何使用 PyTorch 对 ResNet18 模型进行微调，完成一个经典的“蜜蜂 vs 蚂蚁”二分类任务。

3.1 任务设定与数据集准备

我们将使用 torchvision 提供的 hymenoptera_data 数据集。

import torch
import torch.nn as nn
import torch.optim as optim
from torch.optim import lr_scheduler
import numpy as np
import torchvision
from torchvision import datasets, models, transforms
import matplotlib.pyplot as plt
import time
import os
import copy

# 1. 数据预处理与增强
# 对训练数据进行随机增强，对验证数据只进行标准化
data_transforms = {
    'train': transforms.Compose([
        transforms.RandomResizedCrop(224),
        transforms.RandomHorizontalFlip(),
        transforms.ToTensor(),
        # 使用 ImageNet 的均值和标准差进行标准化
        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ]),
    'val': transforms.Compose([
        transforms.Resize(256),
        transforms.CenterCrop(224),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ]),
}

# 假设数据集已下载并解压到 'hymenoptera_data' 目录
data_dir = 'hymenoptera_data'
image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x), data_transforms[x])
                  for x in ['train', 'val']}
dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], batch_size=4,
                                             shuffle=True, num_workers=4)
               for x in ['train', 'val']}
dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']}
class_names = image_datasets['train'].classes
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

print(f"使用的设备: {device}")
print(f"类别: {class_names}")

3.2 加载预训练模型并修改分类头

我们将加载一个在 ImageNet 上预训练的 ResNet18 模型，并将其最后的fc层修改为适合我们二分类任务的输出。

# 1. 加载预训练的 ResNet18
# PyTorch < 1.13.0 use: models.resnet18(pretrained=True)
# PyTorch >= 1.13.0 use:
model_ft = models.resnet18(weights=models.ResNet18_Weights.IMAGENET1K_V1)

# 2. 冻结所有模型参数 (对应策略一：特征提取器)
for param in model_ft.parameters():
    param.requires_grad = False

# 3. 获取最后全连接层的输入特征数
num_ftrs = model_ft.fc.in_features

# 4. 替换为新的全连接层，使其输出为我们的类别数 (2类)
# 新创建的层默认 requires_grad=True
model_ft.fc = nn.Linear(num_ftrs, len(class_names))

# 将模型移动到指定的设备
model_ft = model_ft.to(device)

print("模型结构修改完毕，只有最后的 fc 层参数会被训练。")
print(model_ft.fc)

3.3 设置优化器与学习策略

我们只为需要更新的参数（即新分类头 fc 层的参数）创建一个优化器。

# 创建一个只优化模型最后 fc 层参数的优化器
# model_ft.fc.parameters() 将只返回我们新添加的线性层的参数
optimizer_ft = optim.SGD(model_ft.fc.parameters(), lr=0.001, momentum=0.9)

# 设置学习率调度器：每7个epoch，学习率衰减为原来的0.1倍
exp_lr_scheduler = lr_scheduler.StepLR(optimizer_ft, step_size=7, gamma=0.1)

# 定义损失函数
criterion = nn.CrossEntropyLoss()

3.4 编写训练与评估循环

这是一个通用的训练函数，可以处理训练和验证过程。

def train_model(model, criterion, optimizer, scheduler, num_epochs=25):
    since = time.time()
    best_model_wts = copy.deepcopy(model.state_dict())
    best_acc = 0.0

    for epoch in range(num_epochs):
        print(f'Epoch {epoch}/{num_epochs - 1}')
        print('-' * 10)

        for phase in ['train', 'val']:
            if phase == 'train':
                model.train() # 设置模型为训练模式
            else:
                model.eval()  # 设置模型为评估模式

            running_loss = 0.0
            running_corrects = 0

            for inputs, labels in dataloaders[phase]:
                inputs = inputs.to(device)
                labels = labels.to(device)

                optimizer.zero_grad() # 梯度清零

                with torch.set_grad_enabled(phase == 'train'):
                    outputs = model(inputs)
                    _, preds = torch.max(outputs, 1)
                    loss = criterion(outputs, labels)

                    if phase == 'train':
                        loss.backward() # 反向传播
                        optimizer.step()  # 更新权重

                running_loss += loss.item() * inputs.size(0)
                running_corrects += torch.sum(preds == labels.data)

            if phase == 'train':
                scheduler.step()

            epoch_loss = running_loss / dataset_sizes[phase]
            epoch_acc = running_corrects.double() / dataset_sizes[phase]

            print(f'{phase} Loss: {epoch_loss:.4f} Acc: {epoch_acc:.4f}')

            if phase == 'val' and epoch_acc > best_acc:
                best_acc = epoch_acc
                best_model_wts = copy.deepcopy(model.state_dict())

    time_elapsed = time.time() - since
    print(f'训练完成，耗时 {time_elapsed // 60:.0f}m {time_elapsed % 60:.0f}s')
    print(f'最佳验证集准确率: {best_acc:4f}')

    model.load_state_dict(best_model_wts)
    return model

# 开始训练！
model_ft = train_model(model_ft, criterion, optimizer_ft, exp_lr_scheduler, num_epochs=15)

3.5 [进阶] 微调所有层

如果我们想采用微调所有层的策略（对应策略三），代码需要做如下修改：

# 1. 加载模型，此时不冻结任何层
model_conv = models.resnet18(weights=models.ResNet18_Weights.IMAGENET1K_V1)

# 2. 替换分类头
num_ftrs = model_conv.fc.in_features
model_conv.fc = nn.Linear(num_ftrs, len(class_names))
model_conv = model_conv.to(device)

# 3. 为所有参数创建优化器
# 注意这里的学习率通常要设置得非常小，例如 1e-4
optimizer_conv = optim.SGD(model_conv.parameters(), lr=0.0001, momentum=0.9)

# 4. 定义损失函数和学习率调度器
criterion = nn.CrossEntropyLoss()
exp_lr_scheduler = lr_scheduler.StepLR(optimizer_conv, step_size=7, gamma=0.1)

# 5. 调用相同的 train_model 函数进行训练
# model_conv = train_model(model_conv, criterion, optimizer_conv, exp_lr_scheduler, num_epochs=15)

四、迁移学习的常见问题与注意事项

4.1 负迁移 (Negative Transfer)

并非所有迁移学习都能带来正面效果。如果源任务和目标任务之间几乎没有相关性（例如，用 ImageNet 训练的模型去识别 X 光片中的文字），强行迁移可能会引入无关的噪声特征，反而损害模型性能，这就是负迁移。在选择预训练模型时，要评估其与目标任务的领域相关性。

4.2 数据预处理不匹配

这是一个非常常见但致命的错误。预训练模型对其输入数据有特定的预处理要求（例如，图像尺寸、像素值范围、标准化用的均值和标准差）。你在微调时，必须对你的数据应用完全相同的预处理步骤。否则，数据分布的巨大差异会导致模型从一开始就无法正常工作。对于 ImageNet 预训练模型，通常的标准化参数是 mean=[0.485, 0.456, 0.406] 和 std=[0.229, 0.224, 0.225]。

4.3 学习率的选择

再次强调，微调时的学习率至关重要。

训练整个模型时： 学习率必须非常小（如 $10^{-4}$ 到 $10^{-5}$ ），因为你是在一个已经很好的基础上进行微调，而非从头学习。过大的学习率会瞬间破坏掉预训练学到的精细特征。
只训练分类头时： 可以使用一个相对较大的学习率（如 $10^{-2}$ 到 $10^{-3}$ ），因为它是一个随机初始化的新层，需要更快的学习速度。

五、总结

本文系统地介绍了深度学习中一种极为关键和实用的技术——迁移学习与模型微调。通过本章的学习，我们应掌握以下核心要点：

核心价值： 迁移学习通过利用在大型数据集上训练的预训练模型，解决了小数据集下模型训练困难、计算资源消耗大的问题，是“站在巨人的肩膀上”的典型范例。
基本原理： 其本质是知识的迁移，将预训练模型学到的通用特征（如图像的边缘、纹理）应用到新的、相关的任务上。
关键策略： 微调策略的选择至关重要，主要包括三种：将预训练模型作为固定的特征提取器（冻结所有层，只训练新分类头）、微调部分层（冻结浅层，训练深层）、或微调所有层。具体选择哪种策略，取决于目标数据集的大小及其与源任务的相似度。
实践技巧： 在实践中，修改分类头、冻结/解冻特定层以及使用差异化学习率是实现高效微调的关键操作。同时，务必确保新数据的预处理方式与预训练模型严格一致。
应用前景： 迁移学习不仅限于图像分类，它在目标检测、语义分割、自然语言处理等多个领域都已成为主流范式，是所有深度学习实践者必须掌握的核心技能。