知识蒸馏论文翻译（10）—— A Fast Knowledge Distillation Framework for Visual Recognition

~拾捌~

417人浏览 · 2023-05-09 16:22:50

~拾捌~ · 2023-05-09 16:22:50 发布

知识蒸馏论文翻译（10）—— A Fast Knowledge Distillation Framework for Visual Recognition

一种用于视觉识别的快速知识蒸馏框架

文章目录

知识蒸馏论文翻译（10）—— A Fast Knowledge Distillation Framework for Visual Recognition
摘要
一、介绍
二、相关工作
三、方法
四、实验
五、结论
附录
参考文献

摘要

虽然知识蒸馏（KD）已被公认为许多视觉任务中的有用工具，如监督分类和自监督表示学习，但普通KD框架的主要缺点是其机制，它消耗了通过巨大教师网络转发的大部分计算开销，使得整个学习过程效率低下且成本高昂。最近提出的解决方案ReLabel[52]建议为整个图像创建一个标签图。在培训期间，它通过在预先生成的整个标签图上进行RoI对齐来接收裁剪的区域级标签，从而实现高效的监督生成，而无需多次通过教师。然而，由于KD教师来自传统的多裁剪训练（multi-crop training），在该技术中，全局标签图和区域级标签之间存在各种不匹配，导致性能下降。在这项研究中，我们提出了一个快速知识蒸馏（FKD）框架，该框架复制了蒸馏训练阶段，并使用多作物KD方法生成软标签，同时由于没有使用RoI align和softmax操作等后处理，因此训练速度比ReLabel快。当在同一图像中进行多裁剪以加载数据时，我们的FKD甚至比传统的图像分类框架更有效。在ImageNet-1K上，我们使用ResNet-50获得了79.8%的支持率，比ReLabel高出约1.0%，同时速度更快。在自我监督学习任务上，我们还表明FKD具有效率优势。我们的项目页面在这里这里，源代码和模型可在这里.

一、介绍

表1。ReLabel[52]和我们的FKD框架之间关于各种元素和属性的逐特征比较。 请添加图片描述

知识蒸馏（KD）[16]已被广泛应用于各种视觉领域，如监督识别[2，24，30，35，47，48]和自监督表示学习[4，10，33]。知识提炼的机制是迫使学生模仿教师网络或教师组合的输出，以及收敛于基本真理标签。给定目标学生在迭代 $(t)$ 时的参数 $θ$ ，我们可以通过最小化包含两项的以下目标来学习下一次迭代参数 $θ^{(t+1)}$ ：请添加图片描述
其中 $y_n$ 是第 $n$ 个样本的基本真值标签。 $\bm{T}^{(t)}$ 是教师在迭代 $(t)$ 时的输出， $\bm{S}_θ(x_n)$ 是学生对输入样本 $x_n$ 的预测。 $H$ 是交叉熵损失函数。 $λ$ 是用于平衡两个目标的系数。第一学期旨在最小化一个热点事实标签和学生预测之间的熵，而第二学期旨在最小化教师和学生的预测之间的熵值。教师 $\bm{T}$ 可以以监督或自我监督的方式进行预训练。许多文献[2，35，36，52]已经根据经验表明，在教师或组合教师足够准确的情况下，在ImageNet[8]等大型数据集上不需要等式(1)中的第一项真正的硬标签。在这项工作中，我们简单地将教师和学生模型之间的软预测最小化，用于快速蒸馏设计。

根据KD的定义，这种范式的根本缺点是，相当大比例的计算资源被消耗在通过大型教师网络传递训练数据上，以在每次迭代中产生监督 $\bm{T}^{(t)}$ ，而不是更新或训练目标学生参数。直观地说，通过教师的正向传播可以跨时代共享，因为他们的参数在整个训练中都是冻结的。考虑到香草蒸馏框架本身基本上是低效的，如何减少或共享教师网络在不同时代的前向计算成为加速KD框架的核心。克服这一缺点的自然解决方案是预先生成一个概率向量作为与每个图像相对应的输入数据的软标签，然后针对不同的训练时期循环重用它们。然而，在现代网络训练中，我们通常会采用各种数据增强策略，特别是随机裁剪技术，这会导致不一致性，即整个图像的简单全局级软向量在这些增强后不再能够准确反映局部输入区域的真实概率分布。
请添加图片描述
图1。ReLabel[52]和我们的快速知识蒸馏（FKD）框架的比较。

为了解决数据扩充，特别是随机裁剪在生成一个全局向量到区域级输入时引起的不一致性问题，同时保留软标签特性的优势，ReLabel[52]被提出存储来自预先训练的强教师的全局标签图注释，以供RoI align[13]在不重复通过教师网络的情况下重新利用。图1（左）显示了对该机制的完整解释。然而，由于教师的输入过程不同，这种策略本质上不等同于普通的KD程序。这种不匹配主要是由于两个因素造成的：
(1) 教师网络通常使用随机裁剪调整方案进行训练，而在ReLabel中，全局标签图是通过输入全局图像来获得的，这不能准确地反映软分布作为在输入空间中采用随机裁剪调整操作的蒸馏过程；
(2) RoI-align不能保证分配与教师转发的分配完全相同。

在这项工作中，我们引入了一个快速知识蒸馏（FKD）框架来克服不匹配的缺点，并进一步避免软标签上的信息丢失。我们的策略很简单：如图1（右）所示，在标签生成阶段，我们将多个随机裁剪的软概率直接存储到标签文件中，以及坐标和其他数据增强状态，如翻转。在训练过程中，我们将这些存储的坐标分配回输入图像，以生成经过裁剪调整大小的输入，用于通过网络，并使用相应的软标签计算损失。这种策略的优点是两个文件夹：
(1) 我们基于区域的生成过程和每个输入区域获得的软标签与普通KD的输出相同，这意味着在标签创建阶段不会丢失任何信息；
(2) 我们的训练阶段速度更快，因为不需要后期处理，如RoI-align、softmax等。我们可以在小批量中进一步分配同一图像的多个区域，以减轻数据加载的负担。

我们展示了FKD在监督和自我监督学习任务的准确性和训练速度方面的优势。在监督学习方案中，我们在各种骨干网络架构中从头开始比较基线ReLabel和普通KD（Oracle），如CNN、视觉转换器和具有预训练初始化的竞争性MEAL V2框架。我们的FKD比ImageNet-1K上的ReLabel高约 $1\%$ ，速度略快，比具有类似性能的oracle KD快3 ~ 5倍。在自监督学习方式上，我们使用S2-BNN作为基线来验证我们提出的框架的速度优势。

我们对这项工作的贡献：

我们提出了一个快速知识蒸馏（FKD）框架，该框架实现了与普通KD相同的高水平性能，同时保持了与非KD训练相同的训练速度和效率，而不会丢失信息。
我们发现，在图像分类框架中，可以在一个小批量内用多个作物对一张图像进行采样，以便于数据加载和加快训练，同时又不会牺牲性能。
为了证明我们方法的有效性和多功能性，我们在各种任务和提取框架上演示了FKD，包括监督分类和自监督表示学习。

二、相关工作

知识蒸馏。知识蒸馏[16]背后的原理是鼓励学生模仿或模仿老师的预测，这有助于学生更好地概括看不见的数据。蒸馏的一个核心优点是，与传统的单热标签相比，教师可以提供软化的分布，该分布包含更丰富的关于输入数据的信息，特别是当在输入空间上使用诸如随机裁剪之类的数据增强时。蒸馏可以通过在每次迭代中从强大的教师那里预测错误的标签来避免错误的标签，这反映了转换后的输入数据的真实情况。按照惯例，我们可以对logits施加一个温度，以重新缩放教师和学生模型的输出分布，从而放大监督的阶级间关系，并允许改进蒸馏。最近，提出了许多变体和扩展[6，18，24-26，35，37，44，47，49，54]，例如使用内部特征表示[30]，使用鉴别器的对抗性训练[32]，转移流[48]，对比蒸馏[40]，耐心和一致性[2]等。有关知识蒸馏的相关方法的更广泛概述，请参阅[12，43]。

高效的知识蒸馏。提高知识蒸馏的训练效率对于将这项技术推广到现实世界应用中更广泛的使用范围至关重要。以前在这个方向上的努力通常是不够的。ReLabel[52]是最近提出的一种解决方案，它解决了KD这一低效问题。特别是，它为强大的教师生成全局标签图，然后通过不同时期的RoI对齐来重用它们。我们在本文中提出的FKD方法存在本质上不同的考虑和解决方案。我们考虑vanilla KD的性质，从强大的教师中生成随机裁剪的区域级软标签，并提前存储它们，然后通过将它们分配到训练中的不同时期来重用它们。我们的方法具有与普通KD相同的准确性和与常规非KD分类框架相同的训练速度，使其在性能和训练速度方面都优于ReLabel。

三、方法

在本节中，我们首先介绍ReLabel的全局级软标签和FKD的区域级软标签分布的一些观察结果和性质。然后，我们介绍了FKD框架的详细工作流程，并详细讨论了生成的标签质量、训练速度以及在监督和自监督学习中的适用性。最后，我们分析了标签压缩和存储的策略，以供实际使用。

请添加图片描述
图2:ReLabel[52]、我们的FKD全标签和量化标签（Top-5）的标签分布说明。“MS”表示边缘平滑标签，更多细节可参见第3.5节。每个块中的灰数是来自不同框架的相应部分概率/标签（受空间限制）。

准备工作：先前解决方案的局限性
当生成区域级软标签时，通过RoI对齐操作（近似解决方案）进行ReLabel的机制自然不同于普通KD。在图2中，我们在ImageNet-1K上可视化了ReLabel和FKD的区域级标签分布，并注意到了一些经验观察结果：（i）ReLabel在许多区域的情况下更自信，因此软信息比我们的FKD弱。我们推测这是因为ReLabel将全局图像而不是局部区域馈送到网络中，这使得生成的全局标签图编码更多的全局类别信息，并忽略背景，如图所示。第2行（第1行）。尽管有时ReLabel和FKD之间的最大概率相似，但FKD在标签分布中仍然包含更多信息性的从属概率，如图所示。第2行（第2行）；（ii）对于一些异常区域，我们的策略比ReLabel要稳健得多，例如对象的松散边界框、部分对象等，如图所示。第2行（第3行）；（iii）在某些特定情况下，ReLabel出乎意料地以几乎均匀的分布崩溃，而我们的FKD仍然工作良好，如图2的底行所示。

此外，当使用更多的数据增强（如Flip、颜色抖动等）时，ReLabel的软标签和KD中的oracle教师预测之间存在不匹配，因为这些增强是在训练期间随机应用的。在ReLabel设计中，我们在生成全局标签图时不能将它们考虑在内并提前准备。相比之下，FKD足以处理这种情况：很容易涉及额外的增强，并记录来自相同或不同图像的单个区域的所有信息（比率、程度、系数等），并通过将变换后的图像区域输入到预先训练的教师网络中来生成相应的软标签。

3.1 快速知识蒸馏 Fast Knowledge Distillation

在传统的可视化训练系统中，瓶颈通常来自网络传递和数据加载器，而在蒸馏框架中，除了这些计算消耗之外，巨大的教师一直是训练的最大负担。我们的FKD旨在解决这个棘手的缺点。

标签生成阶段。遵循常规随机裁剪调整大小训练策略，我们从一张图像中随机裁剪 $M$ 个区域，并使用其他增强，如翻转它们，然后将这些区域输入到教师中，以生成相应的软标签向量 $\bm{P}_i$ ，即 $\bm{P}_i=\bm{T}(\bm{R}_i)$ ，其中 $\bm{R}$ 是通过变换 $\mathcal{F}$ 变换的区域， $\bm{T}$ 是预训练的教师网络， $i$ 是区域索引。我们为接下来的训练阶段存储所有区域坐标和带有软标签 $\bm{P}$ 的扩充超参数 $\mathcal{F}$ ，如图1（右上）所示。下面的章节提供了如何存储这些必需值的详细分析。

培训阶段。在训练阶段，我们不是像传统的图像分类策略那样随机生成crops，而是直接加载标签文件，并为该特定图像分配存储的crop坐标和数据增强，以准备变换后的区域级输入。相应的软标签将被用作对这些地区进行培训的监督。对于交叉熵损失，目标是： $L=−\sum_i{\bm{P}_i log\bm{S}_θ(\bm{R}_i)}$ ，其中 $\bm{S}_θ(\bm{R}_i)$ 是学生对输入区域 $\bm{R}_i$ 的预测， $θ$ 是我们需要学习的学生模型的参数。详细的培训程序如图1（右下角）所示。

请添加图片描述
图3。不同对软标签/单热标签和不同标签之间的熵距离分析训练了模型预测。（1）是整体距离可视化。（2），（3），（4）表示（1）中的每个详细组。我们展示了ImageNet-1K数据集中的前50个类。

3.2 标签质量更高 Higher Label Quality

距离分析。我们通过熵距离分析了各种标签配方的质量，并测量了它们的互交叉熵矩阵。我们考虑三种类型的标签：（1）人类注释的一种热标签，ReLabel和我们的FKD。我们还计算了四个不同精度的预训练模型的预测距离，包括：PyTorch预训练模型（最弱）、Timm预训练模型[46]（最强）、ReLabel训练模型和FKD训练模型。我们的插图概述如图3所示。上面的曲线，以及（2）中的曲线，是50类（ReLabel→FKD），（ReLabel→One-hot）和（FKD→Onehot）的平均交叉熵。在这里，我们得出了一个重要的观察结果：
请添加图片描述
其中 $\mathcal{D}^{CE}_{R→F}$ 是ReLabel→ FKD的交叉熵值。从本质上讲，FKD软标签可以被视为oracle KD标签和 $\mathcal{D}^{CE}_{R→F}$ 是到这种“KD真实值”的距离。从图3（2）中，我们可以看到它与一个热标签的距离甚至大于ReLabel和FKD。由于ReLabel（全图软标签global-map soft label）和FKD（地区级软标签region-level soft label）与 one-hot hard 标签有很大差异，ReLabel和FKD之间的差距（“KD真实值”）相当大。如果我们把注意力转移到 $\mathcal{D}^{CE}_{R→O}$ 和 $\mathcal{D}^{CE}_{F→O}$ 的曲线上，它们在具有相似价值的不同类别之间高度一致。在某些特定类中 $\mathcal{D}^{CE}_{F→O}$ 稍大。这是明智的，因为 one-hot 标签基本上不是我们想要的“optimal label”。

在底部组中，即图3（3），熵值相对较小。这是因为它们来自预先训练的模型，并且在一个热标签的标准度量下具有不错的性能。其中， $M_{Timm}$ 对一个热标签具有最小的交叉熵，这是意料之中的，因为timm模型被彻底优化以以以最高的精度拟合 one-hot 标记。

在图3（4）中， $\mathcal{D}^{CE}_{Timm→F}$ 和 $\mathcal{D}^{CE}_{PT→F}$ 位于方差较小的 $\mathcal{D}^{CE}_{Timm→R}$ 和 $\mathcal{D}^{CE}_{PT→R}$ 中间。这反映出FKD对预先训练的模型更稳定。

请添加图片描述
图4。我们的快速知识提取（FKD）框架的不同标签压缩策略和存储分析。

3.3 更快的训练速度 Faster Training Speed

小批量内的多裁剪取样(Multi-crop sampling within a mini-batch)。如图1（右）所示，我们可以在同一图像中使用多个裁剪，以方便加载图像和标签文件。直观地说，它将减少小批量训练样本的多样性，因为一些样本来自同一图像。然而，我们的实验结果表明，它不会损害模型性能，相反，当同一图像的裁剪数量在合理范围内（例如 4～8）时，它甚至会提高精度。

锯齿形学习速率调度器(Serrated learning rate scheduler)。由于FKD从一张图像中采样多个作物 $(\#crop)$ ，当在整个数据集上迭代一次时，我们实际上以相同的学习率训练数据集 $\#crop$ 时期。它在使用里程碑/步长 $l r$ 调度器时没有影响，但如果应用连续余弦或线性学习率策略，它会将 $l r$ 曲线更改为锯齿状。这也是多裁剪训练可以提高准确性的潜在原因。

请添加图片描述
图5。普通KD、ReLabel[52]和我们的快速知识蒸馏（FKD）框架的训练流分析。Maroon虚线框表示ReLabel只需要这些流程，而我们的FKD中不存在这些流程。请注意，“生成软标签”表示ReLabel中的RoI align+softmax。我们都有从压缩标签到完全软标签的恢复过程，如第3.3节所述。

训练时间分析：
1. 数据加载：
FKD中的数据加载策略是有效的。例如，当使用256个小批量进行训练时，传统的图像分类框架需要加载256个图像，ReLabel将加载256个图片+256个标签文件，而在我们的方法中，FKD只需要加载 $\frac{256}{\#crop}$ 图片 $\bm{+} \frac{256}{\#crop}$ 标签文件，如果我们为 $\#crop$ 选择稍大的值（当 $\#crop>2$ 时），甚至比传统训练更快。(我们假设加载每个图像和标签文件将消耗CPU类似的时间。)
2.标签准备:
我们将图像中的 $\#crop$ 区域分配给当前的迷你批次进行训练。由于我们在 $so f t ma x$ 之后存储标签概率（在监督学习中），因此我们可以在没有任何后处理的情况下直接为小批量样本使用指定的软标签。这种分配在PyTorch[27]中使用 $r an d p er m$ 函数实现时既快速又高效。如果使用以下策略压缩标签，我们将使用额外的简单恢复过程（如图4所示）来获得D路软标签分布。请注意，ReLabel也有这个过程，所以这个部分的时间消耗将类似于ReLabel。详细的工作流程和逐项比较如图5所示。

3.4 用有监督方案训练自监督模型 Training Self-supervised Model with Supervised Scheme

在本节中，我们介绍了如何将我们的FKD应用于以更快的训练速度扩展到自监督学习（SSL），与广泛使用的 Siamese SSL框架相比。标签生成（来自自监督的强大教师）、标签准备和培训程序与监督计划类似。然而，我们将投影头保留在原始SSL教师中，并在softmax之前存储软标签以用于操作温度。(在自监督蒸馏的 $so f t ma x$ 操作之前，将温度 $τ$ 应用于logits。）

3.5 标签压缩和存储分析 Label Compression and Storage Analysis

我们考虑并介绍了以下四种压缩软标签存储的策略，它们的详细比较可以参考表2。

Hardening。在强化量化策略中，使用来自区域的教师预测的最大logits的索引来生成硬标签 $\bm{Y}_H$ 。一般来说，标签硬化是区域级空间中通过强教师模型进行校正的 one-hot 标签。

其中 $z_{FKD}$ 是由我们的FKD过程产生的每个随机裁剪区域的 logits 。
Smoothing。平滑量化将 one-hot hard 标签 $\bm{Y}_H$ 替换为软 $\bm{y}_{\bm{c}}$ 和与标签平滑相同的均匀分布的混合物[38]：

其中 $\bm{p}_{\bm{c}}$ 是在第 $\bm{c}$ 类的 $so f t ma x$ 之后的概率，并且 $\bm{C}$ 是总类的数量。 $(1−\bm{p}_{\bm{c}})/(\bm{C}−1)$ 一个小值，用于压平(flattening) one-hot 标签。 $\bm{y}_{\bm{c}} \in\bm{Y}_{\bm{S}}$ 是第 $\bm{c}$ 类的平滑标签。
使用Top-K进行边缘平滑( Marginal Smoothing with Top-K (MS) )。边缘平滑量化比单个平滑标签 $\bm{Y}_{S}$ 保留了更多的教师预测的软信息（Top-K）：
其中 $\bm{y}^{MS}_{\bm{c}}\in\bm{Y}_{MS}$ 是第 $\bm{c}$ 类的边缘平滑标签。
Top-K的边际再范数( Marginal Re-Norm with Top-K (MR) )。边际重整化将Top-K预测重新归一化为 $\sum_{\bm{c}\in{Top−K}}{\bm{p}_{\bm{c}}}=1$ ，并将其他 logits 保持为零（该策略在精神上类似于ReLabel[52]，但在实现上略有不同，因为它的输入是 $so f t ma x$ 之前的logits，所以它在我们使用归一化的同时使用 $so f t ma x$ ，导致我们在Top-K之外的值保持为零。）：

其中 $\bm{y}^{MR}_{\bm{c}}\in\bm{Y}_{MR}$ 是第 $\bm{c}$ 类的重新归一化标签。

请添加图片描述
表2。ImageNet-1K上不同标签量化/压缩策略的详细比较。 $M$ 是图像中的作物数量，这里我们选择200个作物作为例子来计算空间消耗。 $N_{image}$ 是图像的数量，即ImageNet-1K的图像数量为1.2M。 $S_{LM}$ 是标签映射的大小。 $C_{class}$ 是类的数量。 $D_{DA}$ 是要存储的数据扩充的参数维度。

四、实验

实验设置和数据集。我们超参数选择的详细列表如附录表10和表11所示。为了我们框架的透明度和再现性，除非另有说明，否则在我们所有的实验中，我们没有涉及额外的数据增强（除了基本的随机裁剪和随机水平翻转之外），如RandomAug[7]、MixUp[53]、CutMix[51]等。除了在MEAL V2上进行的实验外，我们使用EfficientNetL2-ns-475[39，47]作为教师模型，我们也尝试了较弱的教师，但实验中的表现稍差。对于MEAL V2，我们遵循其原始设计，使用SENet154+ResNet152v1s（胶子版本）集成作为软标签。ImageNet-1K[8]用于监督分类和自监督表示学习。COCO[21]用于本工作中的迁移学习实验。

表3。ReLabel[52]和我们在ImageNet-1K上的FKD之间的比较。“♦” 表示我们按照表10中相同的方案进行的培训，不含蒸馏。模型是从头开始训练的。
请添加图片描述
表4。MEAL V2[36]和我们的FKD在ImageNet-1K上的比较。“w/FKD”表示使用与原始MEAL V2相同的协议训练模型，即所有相同的超参数。“♥” 表示使用余弦lr和1.5×历元的训练。模型是从预先训练的初始化开始训练的。

网络体系结构。实验在卷积神经网络[19]上进行，如ResNet[14]、MobileNet[17]和视觉转换器[9，42]，如DeiT[41]、SReT[34]。对于二进制主干，我们在自监督实验中使用ReActNet[22]。

学习计划。我们考虑了视觉任务中的三种训练方式：（i）从头开始的常规监督训练；（ii）根据预先训练的参数进行监督微调；以及（iii）自监督蒸馏。

基线知识蒸馏方法：

ReLabel[52]（标签图蒸馏）。ReLabel使用来自预先培训的教师的预先生成的全局标签图，以降低教师分支在进行蒸馏时的成本。
MEAL V2[36]（微调蒸馏）。MEAL V2提出从预先训练的参数3和庞大的教师集合中提取学生网络，以实现快速收敛和更好的准确性。
FunMatch[52]（Oracle蒸馏）。FunMatch是一个标准的知识提炼框架，具有强大的教师模型和扩充功能。当使用相同或相似的教师主管时，我们认为这是有效KD的强基线方法。
S2-BNN[52]（自监督蒸馏）。自我监督学习任务的升华解决方案。教师是从自我监督学习方法中预先学习的，如MoCo V2[5]、SwA V[3]等。

表5。在ImageNet-1K上具有监督视觉转换器[9]变体（224×224输入大小）的FKD。模型是从头开始训练的。
请添加图片描述
表6。不同标记量化策略在ImageNet-1K上的消融结果（Top-1）。在该消融中使用m=8。

表7。在小批量中使用的图像内不同数量（m）的裁剪区域在ImageNet-1K上的消融结果（Top-1）。

4.1 监督学习 Supervised Learning

CNNs：
（i） ReLael[52]。与ReLabel的比较如表3所示，使用我们附录中引入的训练设置，这与ReLabel几乎相同，我们在ResNet-50/101上的准确率都比ReLabel高出约1%，训练速度略快。FKD的这些显著且一致的改进在实际应用中显示出巨大的实际应用潜力。
（ii）MEAL V2[36]。我们使用FKD框架来训练MEAL V2模型。结果如表4所示。当使用相同的超参数和教师网络时，FKD可以在不影响精度的情况下为MEAL V2加速2～4倍。在训练中使用余弦lr和更多的历元进一步提高了准确性。
（iii）FunMatch[2]（Oracle）。我们将FunMatch视为oracle/强KD基线，我们的普通FKD实现了79.8%的w/o额外增强，比FunMatch（80.5%）低0.7%。FKD具有更复杂的优化器[23，50]和更多的增强[51，53]（类似于FunMatch）的结果将在探索后呈现。

视觉转换器Vision Transformers：
（i） ViT/DeiT[9，41]。结果如第一组表5所示。我们使用ViT-T主干的非额外增强结果（75.2%）比使用蒸馏的DeiT-T（74.5%）好，而我们在训练中只需要比DeiT-蒸馏协议0.15倍的资源。
（ii）SReT[34]。我们还使用SReTLT进行FKD，我们的结果（78.7%）始终优于其原始KD设计（77.7%），培训资源较少。

消融：
（i）每张图像中裁剪数量的影响。我们探索了在一个小批量内从同一图像中采样的不同数量的作物对最终性能的影响。对于传统的数据准备策略，在每个图像上，我们只对一个小批量的作物进行采样，以训练模型。在这里，我们评估了从1种作物到32种作物的m，如表7所示。令人惊讶的是，使用同一图像中的几个作物比具有不可忽略的余量的单一作物解决方案具有更好的性能，尤其是在传统的图像分类系统上。这表明，小批量中样本的内部多样性具有容差极限，适当减少这种多样性可以提高精度，同时我们也可以观察到，在m>8之后，性能大幅下降，因此多样性基本上仍然是学习模型良好状态的关键。尽管如此，这对于我们加快FKD框架中的数据加载来说是一个很好的观察结果。
（ii）不同的标签压缩策略。我们评估了不同标签压缩策略的性能。我们使用m=8进行消融，结果如表6所示。在MEAL V2 w/FKD上，当使用全软标签时，我们获得了最高的准确率80.65%，而在纯FKD中，最佳性能来自边际平滑（K=5），达到79.51%。增加K都会降低这两种情况下的准确率，我们推测，更大的K将在软标签上涉及更多的噪声或不必要的次要信息。尽管如此，它们仍然比“硬”和“平滑”策略更好。

4.2 自监督学习 Self-Supervised Learning

S2-BNN[33]是一个用于自监督学习的纯基于蒸馏的框架，因此所提出的FKD方法足以平稳、更有效地训练S2-BNN[13]。我们采用SwAV[3]和MoCo V2[5]预训练模型作为教师网络。考虑到SSL学习教师的分布比监督教师的预测更平坦（表明SSL培训教师的下属班级也携带关键信息），我们目前仍使用完整的软标签，SSL任务的标签压缩策略将得到进一步验证。

我们在这些实验中使用ReActNet[22]和ResNet-50[14]作为目标/学生骨干。结果如表8所示，我们的FKD训练模型的性能略好于S2-BNN，训练加速约为3倍，因为我们只使用了一个网络分支，并且没有明确的教师转发。轻微的提升来自于我们在生产SSL软标签时为FKD增加的升数据。这在配备FKD的SSL方法中很有趣，即基于蒸馏的SSL的数据增强策略，值得进一步探索。

表8。FKD与自监督二进制CNN（ReActNet[22]）、实值CNN（ResNet-50[14]）的线性评估结果。
请添加图片描述
表9。迁移学习性能与ReLabel[52]在检测和实例分割任务上的比较。训练和评估是在COCO数据集[21]上进行的。

4.3 迁移学习 Transfer Learning

在这里，我们进一步研究了FKD在ImageNet-1K上获得的改进是否可以转移到各种下游任务。如表9所示，我们在COCO数据集[21]上展示了对象检测和实例分割任务的结果，其中模型在ImageNet1K上用FKD预训练。我们还使用了Faster RCNN[29]和Mask RCNN[13]，在ReLabel[52]之后使用FPN[20]。在常规基线和ReLabel上，我们的FKD预训练参数在下游任务上显示出持续的增益。

请添加图片描述
图6。使用GradCAM[11，31]的学习注意力图的可视化。“基础”表示经过预训练的PyTorch模型。在每组ReLabel和FKD中，左边是Grad CAM，右边是Guided Backdrop。

4.4 可视化、分析和讨论

为了研究ReLabel和FKD之间的信息学习差异，我们使用基于梯度的定位来描述中间注意力图[31]。图6中有三个重要的观察结果与我们前面提到的分析一致。

（i） FKD的预测不如ReLabel有更多的周围环境；这是合理的，因为在随机作物训练中，许多作物基本上是背景（上下文），来自教师模型的软预测标签可能与实际情况完全不同——一个热标签，FKD的训练机制可以利用来自上下文的额外信息。

（ii）FKD的注意力图在对象区域上具有更大的活动区域，这表明FKD训练的模型利用更多的线索进行预测，并且还捕捉到更微妙和细粒度的信息。然而，有趣的是，引导反投影比ReLabel更聚焦。

（iii）ReLabel的注意力与PyTorch预训练模型更加一致，而FKD的结果对他们来说基本上是独一无二的。这意味着FKD的学习注意力与一个热门的全局标签图学习模型有显著差异。

五、结论

鉴于其在训练紧凑高效网络方面的广泛应用和卓越性能，研究提高香草知识提取效率和速度的方法是值得的。在本文中，我们通过预生成的区域级软标签方案提出了一个快速蒸馏框架。我们详细讨论了用于实际存储的软标签压缩策略及其性能比较。我们发现，可以从同一输入图像中对小批量内的输入训练样本进行采样，以便于数据加载过程的开销。我们在监督图像分类和自监督表示学习任务中展示了我们的框架的有效性和适应性。

附录

A.培训细节和实验设置

正文表3中使用的培训细节。当将我们的FKD与ReLabel[52]（正文的表3）进行比较时，我们使用了表10中的训练设置和超参数，这与ReLabel[52]几乎相同，同时没有预热和颜色抖动。

表10。ReLabel[52]和FKD之间的训练超参数和细节用于正文表3中的比较。
请添加图片描述
正文表5中使用的培训细节。当将我们的FKD与ViT[9]/DeiT[41]/SReT[34]（正文的表5）进行比较时，我们使用了表11下面的训练设置和超参数。

表11。当使用ViT[9]及其变体作为骨干网络时，在正文的表5中训练用于比较的超参数和细节。表改编自[41]。
请添加图片描述

B.ImageNet ReaL[1]和ImageNetV2[28]数据集的更多比较和结果

在本节中，我们将在ImageNet ReaL[1]和ImageNetV2[28]数据集上提供更多结果。在ImageNetV2[28]上，我们在三个指标“Top Images”、“Matched Frequency”和“Threshold 0.7”上验证了我们的FKD模型作为重新标记[52]。我们在两种网络结构上进行了实验：资源网-50和资源网-101结果如表12所示，我们在资源网-50和资源网-101上实现了与基线重新标注相比的一致改进。

*表12。ImageNet ReaL[1]和ImageNetV2[28]上FKD与ResNet-{50101}.的结果表明使用他们提供的预训练模型来测试结果。
请添加图片描述

图7。反应/注意力图的更多可视化。