我们真的需要那么多标注数据吗?半监督学习技术近年来的发展历程及典型算法框架的演进
获取高质量的有标注数据的成本非常高,有时候对于某些领域可能没有那么足够多的有标注的数据来辅助我们模型的训练,所以我们希望可以通过少量有标注的数据和大量无标注的数据也可以得到效果近似的模型,半监督的学习由此而来。
核心问题:
如何从无标签数据中获取学习信号来指导监督学习?如何平衡运用有标签数据和无标签数据各自的学习信号?如何选择无标签数据Pseudo-Label:The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks(熵正则化) 这篇中用了伪标签的思想,将无标签的数据放入模型中,得到预测的概率结果,选择概率最大的作为该条数据的伪标签,然后筛选置信度高的数据作为补充的数据放入到有标签的数据集中,继续进行模型的训练。 损失函数:包含两个部分,无监督数据的损失项相当于熵中的正则项。 Π Model & Temporal ensembling Model:Temporal ensembling for semi-supervised learning(一致性正则) 对于每一条数据输入模型两次,经过一次增强变换,同时在放入神经网络中(dropout),得到两个不同的输出Z,计算两个Z的MSE损失,同时对于有标签的数据,还要进行一步交叉熵损失的计算。 损失函数: