经典卷积神经网络之SppNet

技术2022-07-10 147

在以前的卷积神经网络中，我们通常会将输入图片缩放到固定大小，进行训练。主要的原因就是卷积神经网络中的全连接层，我们都知道卷积层是不需要固定大小的输入，给它多大的输入，它就可以产生对应的输出。但是当遇到全连接层时，如果给它不同大小的输入，那么它的权重参数的数量就会发生改变，导致无法训练。在固定输入图片时，常用的操作就是裁剪、变形，但是裁剪会导致信息的丢失，变形会导致位置信息的扭曲，从而影响到检测的精度。而SppNet的出现，主要就是为了解决这个问题，使得卷积神经网络能够使用不同大小的输入。那么它是如何做的？？ SppNet引入了一个叫做空间池化金字塔的层，该层正是SppNet用来消除卷积神经网络对于固定尺寸的限制。它的主要思想就是，在卷积层与全连接层之间，加入空间池化金字塔层，卷积层的输出通过空间池化金字塔层之后产生固定大小的输出，然后再传递到全连接层，这样全连接层就可以得到一个固定大小的输入了。下图，是空间池化金字塔的实现：可以看到，它的实现方法就是，对输入进来的特征图分别做不同尺度的池化操作，然后将池化后的结果进行拼接，以产生固定大小的输出。在这个过程中，我们需要设计池化的窗口大小以及步长：假设最后一层卷积的输出是(H、W、K) Spp层的块分别是 $4 * 4 、 2 * 2 、 1 * 1$ 那么 $4 * 4$ 的块对应的池化层是： Window_h = np.ceil(H/4) Window_w = np.ceil(W/4) strides_h = np.floor(H/4) strides_w = np.floor(W/4) 这里池化层的输出为：((H-(H/4)/(H/4)+1)，(H-(H/4)/(H/4)+1)，(K))->(4, 4, K)->展平->16K 那么 $2 * 2$ 的块对应的池化层是： Window_h = np.ceil(H/2) Window_w = np.ceil(W/2) strides_h = np.floor(H/2) strides_w = np.floor(W/2) 这里池化层的输出为：((H-(H/2)/(H/2)+1)，(H-(H/2)/(H/2)+1)，(K))->(2, 2, K)->展平->4K 那么 $1 * 1$ 的块对应的池化层是： Window_h = np.ceil(H/1) Window_w = np.ceil(W/1) strides_h = np.floor(H/1) strides_w = np.floor(W/1) 这里池化层的输出为：((H-(H/1)/(H/1)+1)，(H-(H/1)/(H/1)+1)，(K))->(1, 1, K)->展平->1K 最后做一个拼接：16K+4K+1K=21K=MK，这里的M表示的是之前画的块的个数： $4 * 4 + 2 * 2 + 1 * 1 = 21$ ，K表示输入到SPP的维度，这样不管输入进来的图像是否是固定尺寸，经过SPP之后都可以产生固定的输出，在与全连接层进行连接。输入不同尺寸的图像，SPP中池化的参数就会不同，但是池化层没有需要训练的参数，因此没有关系，不影响训练。

Processed: 0.011, SQL: 9