MixMatch, that guesses low-entropy labels for data-augmented unlabeled examples and mixes labeled and unlabeled data using MixUp.
最后进行消融研究,以弄清楚MixMatch的哪些成分对其成功最重要。
对于SSL的三种常用的loss term去使模型泛化性更强:
entropy minimization:基于一个假设,分类器的决策边界不应通过边缘数据分布的高密度区域。因此sharpen标签去输出低熵预测。consistency regularization:通过利用分类器即使在扩展后也应为未标记的示例输出相同的类分布的思想,将data augmentation应用于半监督学习。generic regularization:避免训练数据过拟合,本文中第一次将mixup用于ssl领域,作为labeled datapoints和unlabeled datapoints共同的正则器简而言之,MixMatch为未标记的数据引入了统一的损失项,可以无缝地减少熵,同时保持一致性并保持与传统正则化技术的兼容性。
以下材料中提到一个解释是 L 2 L_2 L2损失约束更严格,CE损失会忽略相差一个常数的情况:
MixMatch解读 X ′ , U ′ = MixMatch ( X , U , T , K , α ) L X = 1 ∣ X ′ ∣ ∑ x , p ∈ X ′ H ( p , p model ( y ∣ x ; θ ) ) L U = 1 L ∣ U ′ ∣ ∑ u , q ∈ U ′ ∥ q − p model ( y ∣ u ; θ ) ∥ 2 2 L = L X + λ U L U \begin{aligned} \mathcal{X}^{\prime}, \mathcal{U}^{\prime} &=\operatorname{MixMatch}(\mathcal{X}, \mathcal{U}, T, K, \alpha) \\ \mathcal{L}_{\mathcal{X}} &=\frac{1}{\left|\mathcal{X}^{\prime}\right|} \sum_{x, p \in \mathcal{X}^{\prime}} \mathrm{H}\left(p, \mathrm{p}_{\text {model }}(y \mid x ; \theta)\right) \\ \mathcal{L}_{\mathcal{U}} &=\frac{1}{L\left|\mathcal{U}^{\prime}\right|} \sum_{u, q \in \mathcal{U}^{\prime}}\left\|q-\mathrm{p}_{\text {model }}(y \mid u ; \theta)\right\|_{2}^{2} \\ \mathcal{L} &=\mathcal{L}_{X}+\lambda_{\mathcal{U}} \mathcal{L}_{\mathcal{U}} \end{aligned} X′,U′LXLUL=MixMatch(X,U,T,K,α)=∣X′∣1x,p∈X′∑H(p,pmodel (y∣x;θ))=L∣U′∣1u,q∈U′∑∥q−pmodel (y∣u;θ)∥22=LX+λULU 其中 L L L是分类类别个数。
对于超参的选择:
T = 0.5 , K = 2 T=0.5, K=2 T=0.5,K=2
α \alpha α(mixup中的 Beta \operatorname{Beta} Beta概率里的参数)和 λ U \lambda_{\mathcal{U}} λU在每个数据集基础上去选,不过有发现一些很不错的起始点
common practice:在训练的前16000step中线性增加 λ U \lambda_{\mathcal{U}} λU
实验设置参照《Realistic evaluation of deep semi-supervised learning algorithms》
在消融实验中,unlabeled data上的mixup和sharpen操作很重要
MixMatch是一种结合了目前SSL领域各种主导范式的方法
未来工作:结合其他想法形成更多在SSL领域有效的混合方法,并持续探索哪些成分是更有效的;MixMatch在其他领域的有效性(except image benchmarks)