SSL论文笔记：MixMatch: A Holistic Approach to Semi-Supervised Learning

技术2022-07-10 145

文章目录

AbstractIntroductionMixMatchExperimentConclusion

Abstract

MixMatch, that guesses low-entropy labels for data-augmented unlabeled examples and mixes labeled and unlabeled data using MixUp.

最后进行消融研究，以弄清楚MixMatch的哪些成分对其成功最重要。

Introduction

对于SSL的三种常用的loss term去使模型泛化性更强：

entropy minimization：基于一个假设，分类器的决策边界不应通过边缘数据分布的高密度区域。因此sharpen标签去输出低熵预测。consistency regularization：通过利用分类器即使在扩展后也应为未标记的示例输出相同的类分布的思想，将data augmentation应用于半监督学习。generic regularization：避免训练数据过拟合，本文中第一次将mixup用于ssl领域，作为labeled datapoints和unlabeled datapoints共同的正则器

简而言之，MixMatch为未标记的数据引入了统一的损失项，可以无缝地减少熵，同时保持一致性并保持与传统正则化技术的兼容性。

MixMatch

循环，对一个Batch的标记数据和一个Batch的未标记数据（equally-sized batch）做数据增广，分别得到一个Batch的标记增广数据和K个Batch的未标记增广数据。（文章中K=2）预测伪标签：将K个增广后的数据输入分类器，计算平均分类概率，应用温度Sharpen算法使伪标签熵小化。将一个Batch的标记增广数据和K个Batch的未标记增广数据混合，随机重排得到

W

数据集。将一个batch的标记增广数据和

W

的前一个batch利用mixup混合构成新的标记增广数据；再将K个batch的未标记增广数据和

W

剩下的数据利用mixup混合构成新的未标记增广数据。对增广后的标记数据计算CE损失，对增广后的未标记数据计算

L_2

损失。【因为与交叉熵不同，它有界且对错误的预测不那么敏感。因此，它通常用作SSL中未标记的数据丢失以及预测不确定性的量度】

以下材料中提到一个解释是 $L_2$ 损失约束更严格，CE损失会忽略相差一个常数的情况：

MixMatch解读 $\begin{aligned} \mathcal{X}^{\prime}, \mathcal{U}^{\prime} &=\operatorname{MixMatch}(\mathcal{X}, \mathcal{U}, T, K, \alpha) \\ \mathcal{L}_{\mathcal{X}} &=\frac{1}{\left|\mathcal{X}^{\prime}\right|} \sum_{x, p \in \mathcal{X}^{\prime}} \mathrm{H}\left(p, \mathrm{p}_{\text {model }}(y \mid x ; \theta)\right) \\ \mathcal{L}_{\mathcal{U}} &=\frac{1}{L\left|\mathcal{U}^{\prime}\right|} \sum_{u, q \in \mathcal{U}^{\prime}}\left\|q-\mathrm{p}_{\text {model }}(y \mid u ; \theta)\right\|_{2}^{2} \\ \mathcal{L} &=\mathcal{L}_{X}+\lambda_{\mathcal{U}} \mathcal{L}_{\mathcal{U}} \end{aligned}$ 其中 $L$ 是分类类别个数。

对于超参的选择：

$T = 0.5, K = 2$

$\alpha$ （mixup中的 $\operatorname{Beta}$ 概率里的参数）和 $\lambda_{\mathcal{U}}$ 在每个数据集基础上去选，不过有发现一些很不错的起始点

common practice：在训练的前16000step中线性增加 $\lambda_{\mathcal{U}}$

Experiment

实验设置参照《Realistic evaluation of deep semi-supervised learning algorithms》

在消融实验中，unlabeled data上的mixup和sharpen操作很重要

Conclusion

MixMatch是一种结合了目前SSL领域各种主导范式的方法

未来工作：结合其他想法形成更多在SSL领域有效的混合方法，并持续探索哪些成分是更有效的；MixMatch在其他领域的有效性（except image benchmarks）

Processed: 0.012, SQL: 9