近日,DeepMind 和英国帝国理工大学的研究人员在最新的研究中介绍了一种用于自我监督的图像表示学习的新方法——Bootstrap Your Own Latent(BYOL)。
关注图灵公众号,回复“BYOL”即可获取论文下载
学习好的图像表示是计算机视觉的一个关键挑战,因为它可以对下游任务进行有效训练。目前已有许多不同的训练方法来学习这类表征,它们通常依赖于视觉前置任务。
其中,最先进的对比方法是通过减少同一图像的不同增强视图表示之间的距离(positive pairs)和增加不同图像的增强视图表示之间的距离(negative pairs)来训练。
这些方法需要通过依赖大批量,存储库或定制的挖掘策略来仔细处理negative pairs,以对其进行检索。此外,这些方法的性能很大程度上取决于图像增强的选择。
BYOL 使用两个相互交互并相互学习的神经网络,称为在线网络和目标网络,二者相互作用,相互学习。BYOL从图像增强视角出发,训练在线网络预测同一图像在不同增强视角下的目标网络表示。
与最先进的对比方法相比,BYOL无需使用negative pairs就实现更高的性能,它迭代地引导网络的输出以充当增强表示的目标。此外,BYOL在图像增强方面的选择比对比方法更强大。
研究者认为,不依赖于negative pairs是提高鲁棒性的主要原因之一。
虽然先前基于引导的方法已使用伪标签或簇索引作为目标,但研究者建议直接引导表示。
使用具有 ResNet-50 架构的标准线性评估协议,BYOL 在 ImageNet 上可达到 74.3%的 top-1 分类精度。
在较大 ResNet 的情况下,BYOL 可以达到 79.6%。该研究证明 BYOL 在传输基准和半监督基准上的表现均达到了SOTA的水平。
BYOL在ImageNet上的性能(线性评估)
研究者的贡献如下:
介绍了一种自监督表示学习方法——BYOL,它在不使用negative pairs的情况下在ImageNet上的线性评估协议下达到了SOTA。证明了该学习表示在半监督和转移基准上的表现优于目前最先进水平。与对比方法相较,BYOL更能适应批大小和图像增强集合的变化。特别是,当只使用随机裁剪作为图像增强时,BYOL比SimCLR(一个强大的对比基线)的性能下降要小得多。论文链接:
https://arxiv.org/pdf/2006.07733.pdf