Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results

0. 前言

相关资料：
- arxiv
- github
- 论文解读（知乎，CSDN）
论文基本信息：

领域：半监督学习
发表时间：NIPS 2017（2017.3.6）

摘要

　　最近提出的时序集成在几个半监督学习基准中取得了最新的成果。它在每个训练示例上保持标签预测的指数移动平均值，并惩罚与该目标不一致的预测。然而，由于目标在每个epoch中只改变一次，因此在学习大型数据集时，时序集成变得很难处理。为了克服这个问题，我们提出了均值教师法，这是一种平均模型权重而不是标记预测的方法。作为一个额外的好处，Mean Teacher提高了测试的准确性，并使训练比时序集成使用更少的标签。在不改变网络结构的情况下，Mean Teacher在使用250个标签的SVHN上实现了4.35%的错误率，优于使用1000个标签训练的时序集成。我们还表明，良好的网络体系结构对性能至关重要。结合平均值和Residual Networks，我们将CIFAR-10上的4000个标签从10.55%提高到6.28%，并将ImageNet 2012上的10%标签从35.24%提高到9.11%。

1介绍

　　深度学习在图像和语音识别等领域取得了巨大成功。为了学习有用的抽象，深度学习模型需要大量参数，因此容易过度拟合（图1a)此外，手动为训练数据添加高质量标签通常成本高昂。因此，在半监督学习中，需要使用有效利用未标记数据的正则化方法来减少过度拟合。

　　当一个对象稍微改变时，人类通常仍然认为它是同一个物体。相应地，分类模型应该支持为相似数据点提供一致输出的函数。实现这一点的一种方法是向模型的输入添加噪声。为了使模型能够学习更多的抽象不变性，可以将噪声添加到中间表示中，这一见解激发了许多正则化技术，例如Dropout[28]。正则化模型不是在输入空间的零维数据点处最小化分类成本，而是在每个数据点周围的流形上最小化成本，从而将决策边界推离标记的数据点（图1b）。

　　由于未标记样本的分类代价未定义，噪声正则化本身不利于半监督学习。为了克服这个问题，Γ模型[21]评估每个有无噪声的数据点，然后在两个预测之间应用一致性代价。在这种情况下，模型承担了教师和学生的双重角色。作为一名学生，它一如既往地学习；作为一名教师，它会生成目标，然后作为学生使用这些目标进行学习。由于模型本身会生成目标，它们很可能是不正确的。如果对生成的目标给予过多的权重，不一致性的代价将超过错误分类的代价，从而阻碍新信息的学习，实际上，该模型存在确认偏差（图1c），可以通过提高目标质量来缓解的危险。

　　图1：二元分类任务的示意图，包括两个标记的示例（大蓝点）和一个未标记的示例，展示了未标记目标（黑圈）的选择如何影响拟合函数（灰色曲线）。（a）没有正则化的模型可以自由地拟合任何能够很好地预测标记训练样本的函数。（b）使用有噪声的标记数据（小点）训练的模型学习在标记数据点周围给出一致的预测。（c）与未标记示例周围的噪声保持一致可提供额外的平滑效果。为了说明清楚，首先将教师模型（灰色曲线）拟合到标记的示例，然后在训练学生模型期间保持不变。同样为了清楚起见，我们将省略图d和e中的小点。（d）教师模型上的噪声减少了目标的偏差，无需额外训练。随机梯度下降的预期方向是单个噪声目标（蓝色小圆圈）的平均值（蓝色大圆圈）。（e）一组模型给出了更好的预期目标。无论是时序集成法还是平均教师法都使用这种方法。

　　至少有两种方法可以提高目标质量。一种方法是仔细选择表示的扰动，而不是仅仅应用加法或乘法噪声。另一种方法是仔细选择教师模式，而不是勉强复制学生模式。与我们的研究同时，Miyato等人[16] 虚拟训练可以产生令人印象深刻的效果。我们采用第二种方法，并将证明它也提供了显著的好处。据我们理解，这两种方法是相容的，它们的结合可能会产生更好的结果。然而，对其综合效应的分析超出了本文的范围。

　　因此，我们的目标是在不进行额外训练的情况下，从学生模式中形成更好的教师模式。作为第一步，考虑模型的SOFTMax输出通常不提供在训练数据之外的准确预测。这可以通过在推理时向模型添加噪声来部分缓解[4]，因此，吵闹的教师可以给出更准确的目标（图1）1d）。这种方法被用于伪系综协议[2]并且最近被证明在半监督图像分类中效果良好[13, 23]莱恩和艾拉[13] 将该方法命名为∏模型；我们将用这个名字来命名它，并把它的版本作为我们实验的基础。

　　通过时间集成，可以进一步改进∏模型[13]，它为每个训练示例保持指数移动平均（EMA）预测。在每个训练步骤中，根据新的预测更新该小批量中示例的所有EMA预测。因此，每个示例的EMA预测由模型的当前版本和评估同一示例的早期版本的集合构成。这种整合提高了预测的质量，并将其用作教师预测来改善结果。然而，由于每个目标在每个epoch中只更新一次，因此学习到的信息以缓慢的速度融入训练过程。数据集越大，更新的时间越长，而且在在线学习的情况下，不清楚如何使用时序集成。（每个epoch可以定期评估所有目标一次以上，但保持评估范围不变需要每个epoch进行O（n²）次评估，其中n是训练示例的数量。）

2平均教师法

　　为了克服时间集成的局限性，我们提出了平均模型权重而不是预测。由于教师模型是连续学生模型的平均值，我们称之为平均教师法（图1）2)。在训练步骤中平均模型权重往往会产生比直接使用最终权重更精确的模型[19].我们可以在训练中利用这一点来构建更好的目标。教师模型使用学生模型的EMA权重，而不是与学生模型共享权重。现在它可以在每一步而不是每一个epoch之后聚合信息。此外，由于权重平均值改善了所有层的输出，而不仅仅是顶层输出，因此目标模型具有更好的中间表示。与时序集成相比，这些方面带来了两个实际优势：首先，更准确的目标标签导致学生和教师模型之间更快的反馈循环，从而提高测试准确性。其次，该方法适用于大型数据集和在线学习。

　　图2：平均教师法。该图描述了一个带有单个标记示例的训练batch。学生和教师模型都在计算中评估输入应用噪声（η，η′）。将学生模型的softmax输出与使用分类成本的一个热标签和使用一致性成本的教师输出进行比较。学生模型的权重用梯度下降法更新后，教师模型的权重将更新为学生权重的指数移动平均值。这两种模型输出都可以用于预测，但在训练结束时，教师的预测更有可能是正确的。带有未标记示例的训练步骤与此类似，只是不会应用分类成本。

　　更正式地说，我们将一致性成本J定义为学生模型预测（权重θ和噪声η）和教师模型预测（权重θ′和噪声η′）之间的预期距离。

　　π模型、时间集合和平均教师之间的区别在于教师预测是如何产生的。鉴于∏模型使用θ′=θ，而时间集合近似于f（x，θ′，η′）和连续预测的加权平均值，我们将训练步骤t中的θ_t′定义为连续θ权重的EMA：

　　其中α是平滑系数超参数。这三种算法之间的另一个区别是∏模型将训练应用于θ′，而时间集成和均值教师将其视为优化的常数。

　　我们可以通过随机梯度下降在每个训练步骤中采样噪声η，η′来近似一致性代价函数J。跟随莱恩和艾拉[13]，我们在大多数实验中使用均方误差（MSE）作为一致性成本。

　　表1:SVHN在10次运行中的错误率百分比（使用所有标签时为4次运行）。我们在评估所有模型时使用指数移动平均权重。所有方法都使用类似的13层ConvNet体系结构。在附录中的表5给出了无需增加输入的结果。

表2:CIFAR-10上10次运行（使用所有标签时4次运行）的错误率百分比。

3实验

　　为了验证我们的假设，我们首先复制了∏模型[13]在张量流中[1]作为我们的基线。然后，我们修改了基线模型，使用加权平均一致性目标。该模型结构是一个13层卷积神经网络（ConvNet），具有三种类型的噪声：输入图像的随机平移和水平翻转、输入层的高斯噪声和网络中应用的衰减。我们使用均方误差作为一致性成本，并在前80个时期将其权重从0增加到最终值。有关模型和训练程序的详细信息，请参见附录B.1。

3.1在SVHN和CIFAR-10上与其他方法的比较

　　我们使用街景房号（SVHN）和CIFAR-10基准进行了实验[17].两个数据集都包含32x32像素的RGB图像，属于十个不同的类别。在SVHN中，每个示例都是一个门牌号的特写，类代表图像中心数字的标识。在CIFAR-10中，每个示例都是属于一个类别的自然图像，例如马、猫、汽车和飞机。SVHN包含73257个训练样本和26032个测试样本。CIFAR-10由50000个训练样本和10000个测试样本组成。

　　表1和2将结果与最近最先进的方法进行比较。比较中的所有方法都使用类似的13层ConvNet体系结构。与∏模型相比，Mean-Teacher提高了半监督SVHN任务的测试精度，并对其进行了时间整合。与我们的基线∏模型相比，Mean Teacher还改进了CIFAR-10的结果。

　　Miyato等人最近发布的虚拟对抗训练版本。[16] 在1000标签SVHN和4000标签CIFAR-10上的表现甚至比Mean Teacher更好。正如导言中所讨论的，VAT和Mean Teacher是互补的方法。它们的组合可能比单独使用两者产生更好的准确性，但这项研究超出了本文的范围。

　　表3：使用额外的未标记训练数据在SVHN上运行10次以上的错误百分比。

　　图3：在前10万个训练步骤中，平均教师和我们的SVHN基线∏模型的平滑分类成本（顶部）和分类误差（底部）。在上面一行中，训练分类成本仅使用标记数据进行测量。

3.2具有额外未标记数据的SVHN

　　在上面，我们认为Mean Teacher可以很好地适应大型数据集和在线学习。此外，SVHN和CIFAR-10的结果表明，它有效地使用了未标记的示例。因此，我们想测试我们是否已经达到了我们方法的极限。

　　除了主要的训练数据，SVHN还包括一个额外的数据集，包含531131个示例。我们从初级训练中挑选了500个样本作为我们的标记训练示例。我们将主要训练集的其余部分与额外训练集一起用作未标记的示例。我们使用Mean Teacher和基线∏模型进行了实验，并使用了0、100000或500000个额外示例。表3 显示结果。

3.3训练曲线分析

　　训练曲线如图所示3 帮助我们理解使用刻薄教师的效果。正如预期的那样，EMA加权模型（最下面一行的蓝色和深灰色曲线）在初始阶段后比裸学生模型（橙色和浅灰色）给出了更准确的预测。

　　使用EMA加权模型作为教师，在半监督设置下改善结果。教师（蓝色曲线）通过一致性成本改善学生（橙色），学生通过指数移动平均改善教师，这似乎是一个良性反馈循环。如果这个反馈周期被分离，学习就会变慢，模型就会更早地开始过度拟合（深灰色和浅灰色）。

　　当标签稀缺时，平均教师会提供帮助。当使用500个标签（中栏）时，意味着教师学习更快，并且在∏模型停止改善后继续训练。另一方面，在所有标记的情况下（左列），平均教师和∏模型的行为几乎相同。

　　图4:250个标签SVHN在每个超参数设置及其平均值的四次运行中的验证错误。在每个实验中，我们改变一个超参数，并使用表的评估运行超参数1 剩下的。评估运行中使用的超参数设置用粗体字号标记。详见正文。

　　平均教师使用未标记的训练数据比模型更有效，如在中间列中所见。另一方面，由于额外增加了500k个未标记的示例（右栏），因此∏模型持续改进的时间更长。Mean Teacher学习速度更快，最终收敛到更好的结果，但数据量似乎抵消了∏模型糟糕的预测。

3.4消融实验

　　为了评估模型各个方面的重要性，我们在SVHN上进行了250个标签的实验，一次改变一个或几个超参数，同时保持其他参数不变。

　　消除噪音（图4（a）和4（b））。在引言和图中1,我们提出了假设，即∏模型通过在模型两侧添加噪声来产生更好的预测。但在加入了平均教师之后，还需要噪音吗？对我们可以看到，无论是输入增加或退出是必要的，通过性能。另一方面，使用增强功能时，输入噪声没有帮助。教师方面的Dropout只比学生方面的Dropout带来了微乎其微的好处，至少在使用输入增强的情况下是如此。

　　对EMA衰减和稠度权重的敏感性（图4（c）和4（d））。 Mean-Teacher算法的基本超参数是一致性代价权重和EMA衰减α。算法对它们的值有多敏感？我们可以看到，在每种情况下，好的值的范围大致为一个数量级，在这些范围之外，性能会迅速下降。请注意，EMA衰减α=0使模型成为∏模型的变体，尽管有些低效，因为梯度仅通过学生路径传播。还要注意的是，在评估运行中，我们在加速阶段使用EMA衰减α=0.99，在其余的训练中使用α=0.999。我们之所以选择这种策略，是因为学生在训练早期进步很快，因此教师应该很快忘记旧的、不准确的学生权重。后来，学生的进步变慢了，教师也受益于更长的记忆力。

解耦分类和一致性（图4（e））。与教师预测的一致性不一定能很好地代表分类任务，尤其是在训练早期。到目前为止，我们的模型通过对这两个任务使用相同的输出，将这两个任务强耦合。任务解耦将如何改变算法的性能？为了进行调查，我们将模型更改为具有两个顶层，并生成两个输出。然后，我们对其中一个输出进行分类训练，另一个进行一致性训练。我们还增加了输出逻辑之间的均方误差成本，然后改变了该成本的权重，允许我们控制耦合的强度。查看结果（使用分类输出的EMA版本报告），我们可以看到强耦合版本表现良好，而过于松散耦合的版本则没有。另一方面，适度的脱钩似乎有利于使一致性提升变得多余。

　　表4：与最新水平相比，ResNet平均教师的错误率百分比。我们报告了CIFAR-10上10次运行的测试结果和ImageNet上2次运行的验证结果。

　　从MSE变为KL散度（图4（f））跟随莱恩和艾拉[13]，我们使用均方误差（MSE）作为一致性代价函数，但KL散度似乎是更自然的选择。哪一个更好？我们对从MSE（图中τ=0）到KL散度（τ=1）的成本函数族实例进行了实验，发现在这种设置下，MSE的性能优于其他成本函数。见附录C了解成本函数族的详细信息，以及我们对MSE为何表现如此出色的直觉。

3.5在CIFAR-10和ImageNet上具有Residual Networks的平均教师法

　　在上面的实验中，我们使用了传统的13层卷积结构（ConvNet），这有利于与早期工作进行比较。为了探索模型结构的影响，我们使用12块（26层）残差网络进行了实验[8]（ResNet）具有抖动正则化[5]在CIFAR-10上。有关模型和训练程序的详细信息，请参见附录B.2。如表所示4, 随着网络结构的改善，结果显著改善。

　　为了测试这些方法是否适用于更自然的图像，我们在Imagenet 2012数据集上进行了实验[22]使用10%的标签。我们使用了50块（152层）的ResNeXt架构[33]，并看到了对最先进技术的明显改进。由于测试集不公开，我们使用验证集测量结果。

4相关工作

　　Sietsma&Dow提出了神经网络的噪声正则化[26].最近，有几种类型的扰动被证明能有效地规范深度学习中的中间表征。对抗训练[6]稍微更改输入，以给出与原始预测尽可能不同的预测。Dropout[28]将图层输出的随机权重设置为零。Dropconnect[31]通过将单个权重归零而不是激活来概括退出。随机深度[11]丢弃整个Residual Networks层，然后Swapout[27]推广了Dropout和随机深度。抖动正则化[5] 复制剩余路径，并在向前和向后传递期间独立地对其输出的线性组合进行采样。

　　有几种半监督方法是基于训练模型预测与扰动一致。去噪源分离框架（DSS）[29]使用潜在变量去噪来学习它们的似然估计。梯形网络的Γ变体[21]利用分类任务的深度学习模型实现DSS。它产生了一个嘈杂的学生预测和干净的教师预测，并应用去噪层从学生预测中预测教师预测。π模型[13]通过移除显式去噪层并将噪声应用于教师预测，改进了Γ模型。对于线性模型，早就有人提出过类似的方法[30]深度学习[2].虚拟对抗训练[16]与∏模型类似，但使用对抗性扰动，而不是独立噪声。

　　教师模型训练学生的想法与模型压缩有关[3]蒸馏[9].通过使用复杂模型的softmax输出对简单模型进行训练，可以将复杂模型的知识转化为简单模型。softmax输出比热输出包含更多关于任务的信息，而表达这些知识的要求使更简单的模型正则化。除了用于模型压缩之外，蒸馏还可以用来强化经过训练的模型，以抵御对手的攻击[18].蒸馏和一致性正则化的区别在于，蒸馏是在训练后执行的，而一致性正则化是在训练时间执行的。

　　一致性正则化可以看作是标签传播的一种形式[34].相互相似的训练样本更可能属于同一类。标签传播利用了这一假设，根据某种度量将标签信息从每个示例推送到靠近它的示例。标签传播也可以应用于深度学习模型[32]然而，普通标签传播需要在输入空间中预定义距离度量。相比之下，一致性目标采用模型抽象表示所隐含的学习距离度量。当模型学习到新特征时，距离度量会发生变化以适应这些特征。因此，一致性目标从两个方面指导学习。一方面，它们根据当前的距离度量来传播标签，另一方面，它们帮助网络学习更好的距离度量。　　

5结论

　　时间集成、虚拟对抗训练和其他形式的一致性正则化最近在半监督学习中显示了它们的优势。在本文中，我们提出了平均教师法，一种平均模型权重的方法，以形成目标生成教师模型。与时序集成不同，Mean-Teacher处理大型数据集和在线学习。实验表明，该方法提高了训练网络的学习速度和分类精度。此外，它可以很好地扩展到最先进的建筑和较大的图像尺寸。

　　一致性正则化的成功取决于教师生成目标的质量。如果目标可以改进，就应该改进。平均教师和虚拟对抗训练代表了利用这一原则的两种方式。它们的结合可能会产生更好的目标。可能还有其他方法有待发现，可以进一步改进目标和训练模型。

posted @ 2022-04-16 19:08 Lhiker 阅读(1475) 评论(0) 收藏举报

刷新页面返回顶部

自由方向