YOLOv3反向传播原理之公式推导

技术2026-06-08 72

YOLOv3反向传播原理之公式推导

YOLOv3反向传播和所有的神经网络反向传播道理都一样，都是通过求LOSS对神经元仿射变换权重的导数，计算出一个权重变化的方向和步长，最终计算出更新的权重。传播的是LOSS，计算的是权重变化的梯度，最终求得的是更新的权重。YOLOv3为卷积神经网络，但是卷积和全连接原理相同，都是仿射变换，区别是卷积层再实际计算过程中需要通过feature map矩阵的重排和矩阵计算完成梯度计算。所以卷积神经网络的反向传播求导计算原理可以完全参考全连接，作为不能回避的内容，本文首先对反向传播原理再推导一遍，对这个过程很熟悉的朋友可以跳过第一节。反向传播就是一个求导的过程，但是大家在推导的时候很快就晕了，我觉的有两个原因：一是求导主要拆分为求针对输出的导数和求针对权重的导数两个任务，两个任务随着传播的进行交替进行，如果把这两个任务糊在一起理解，很快晕菜；二是每一步的下标很容易混乱，看着后面的，忘着前面的，这个主要靠耐心，多看几遍不会忘。下面我们先画一个神经网络原理图，定义一下公式计算中的变量，接着解释“两个任务”。原理图如下：

图中，蓝色圆形为求和单元，黄色方形为激活单元。假设网络为 $L$ 层，每层的神经元个数为 $N (l)$ 个。输入为 $\lbrace{x_{1,0},x_{2,0},...,x_{N(0),0}}\rbrace$ ，表示初始层的输入。第 $l$ 层第 $n$ 个神经元的输入为 $\lbrace{y_{1,l-1},y_{2,l-1},...,y_{N(l-1),l-1}}\rbrace$ ，对应的仿射变换的权重为 $\lbrace{w_{1,n,l-1},w_{2,n,l-1},...,w_{N(l-2),n,l-1}}\rbrace$ ，偏置为 $b_{n,l-1}$ 。经过放射变换后的到 $z_{n,l}$ ，再经过激活函数得到 $y_{n,l}$ 。第l层输出为 $N_{l}$ 个。在我们前面一篇文章《YOLO中LOSS函数的计算》中，我们对二分类交叉熵损失函数和平方差损失函数进行求导，证明两种损失函数具有一致性。这里为了方便计算假设LOSS函数为 $-\frac{1}{2}\sum_{n=1}^{N(l),l=L}(y_{n,l}^{\prime}-y_{n,l})^{2}$ 其中， $y_{n,l}^{\prime}$ 表示真值，为了使推导更具有普遍性，这个LOSS函数并不特指回归还是分类。同时，为了方便后续YOLO源码分析，我们令 $y_{n,l}^{\prime}-y_{n,l}$ ，则LOSS函数如下 $-\frac{1}{2}\sum_{n=1}^{N(l),l=L}delta_{n,l}^{2}$ 接下来要做的事就是求导。我们前面说了，求导就是求针对输出的导数和求权重的导数，这两个求导交替进行。按照一般的思路，我们这里从头开始，最后归纳出普遍的求导公式。首先，第 $L$ 层针对输出值 $y_{n,L}$ 的导数为 $\frac{\partial{LOSS}}{\partial{y_{n,l}}} = -delta_{n,l}\frac{\partial{delta_{n,l}}}{\partial{y_{n,l}}} = delta_{n,l}$ 第 $L$ 层第 $n$ 个神经元，针对权重 $w_{n(L-1),n(L),L}$ 的导数为

$\frac{\partial{LOSS}}{\partial{w_{n(L-1),n(L),L}}} = \frac{\partial{LOSS}}{\partial{y_{n(L),L}}}\frac{\partial{y_{n(L),L}}}{\partial{z_{n(L),L}}}\frac{\partial{z_{n(L),L}}}{\partial{w_{n(L-1),n(L),L}}} = \frac{\partial{y_{n(L),L}}}{\partial{z_{n(L),L}}}delta_{n(L),L}y_{n(L-1),L-1}$

$\frac{\partial{LOSS}}{\partial{b_{n(L),L}}} = \frac{\partial{LOSS}}{\partial{y_{n(L),L}}}\frac{\partial{y_{n(L),L}}}{\partial{z_{n(L),L}}}\frac{\partial{z_{n(L),L}}}{\partial{b_{n(L),L}}} = \frac{\partial{y_{n(L),L}}}{\partial{z_{n(L),L}}}delta_{n(L),L}$

注意，这里为方便区分不同神经元下标，给每个 $n$ 加了一个 $(L)$ 进行标记。针对 $\frac{\partial{y_{n(L),L}}}{\partial{z_{n(L),L}}}$ ，要看具体使用了那些类型的激活函数，在YOLO中最常用的是ReLU（linear_activate(float x)）和sigmoid（logistic_activate(float x)）。如果使用ReLU， $\frac{\partial{y_{n(L),L}}}{\partial{z_{n(L),L}}} = 1$ ，那么 $\frac{\partial{LOSS}}{\partial{w_{n(L-1),n(L),L}}} = delta_{n(L),L}y_{n(L-1),L-1}$ $\frac{\partial{LOSS}}{\partial{b_{n(L),L}}}= delta_{n(L),L}$

如果使用sigmoid， $\frac{\partial{y_{n(L),L}}}{\partial{z_{n(L),L}}} = (1 - z_{n(L),L}) z_{n(L),L}$ ，那么 $\frac{\partial{LOSS}}{\partial{w_{n(L-1),n(L),L}}} = delta_{n(L),L}y_{n(L-1),L-1}(1 - z_{n(L),L}) z_{n(L),L}$ $\frac{\partial{LOSS}}{\partial{b_{n(L),L}}}= delta_{n(L),L}(1 - z_{n(L),L}) z_{n(L),L}$

YOLOv3中卷积模块自带ReLU激活函数，YOLO层中计算位置偏置和分类时使用了sigmoid函数，但YOLO层并未使用 $\frac{\partial{y_{n(L),L}}}{\partial{z_{n(L),L}}} = (1 - z_{n(L),L}) z_{n(L),L}$ 这个环节，YOLO层是一个目标检测层，认为计算的误差可以直接传递。本人认为计算位置偏置使用sigmoid函数主要目的还是为了将偏置控制再0到1之间，至于训练出来是不是1作者并不关心，因为这里是回归而不是分类。其实如果是为了控制再0到1之间还可以使用sin，cos函数等，反向传播不考虑sigmoid函数，也许归回会慢一点，但是总体并不影响。对于分类问题，作者反向传播时候使用的是交叉熵，已经考虑进去了，读者可以查看《YOLO中LOSS函数的计算》。作者直接使用delta，也是考虑可以将delta直接传递到前一层直接使用了。

下面我们接着推导第L-1层。首先先推导LOSS函数对$ y_{n(L-1),L-1 $的偏导。 $\frac{\partial{LOSS}}{\partial{y_{N(L-1),L-1}}} = \sum_{n(L)=1}^{N(L)}{\frac{\partial{LOSS}}{\partial{y_{n(L),L}}}\frac{\partial{y_{n(L),L}}}{\partial{z_{n(L),L}}}} \frac{\partial{z_{n(L),L}}}{\partial{y_{n(L-1),L-1}}}$ 这里，因为 $y_{n(L-1),L-1}$ 参与了每个 $z_{n(L),L}$ 计算，所以需要一个累加计算。现在计算 $\frac{\partial{z_{n(L),L}}}{\partial{y_{n(L-1),L-1}}}$ $\frac{\partial{z_{n(L),L}}}{\partial{y_{n(L-1),L-1}}} = \frac{\partial{(\sum_{n(L-1)=1}^{N(L-1)}{y_{n(L-1),L-1}w_{n(L-1),n(L),L}}+b_{n(L),L})}}{\partial{y_{n(L-1),L-1}}} =w_{n(L-1),n(L),L}$ 因此 $\frac{\partial{LOSS}}{\partial{y_{N(L-1),L-1}}} = \sum_{n(L)=1}^{N(L)}{\frac{\partial{y_{n(L),L}}}{\partial{z_{n(L),L}}}delta_{n(L),L}w_{n(L-1),n(L),L}}$ 为了更清楚的理解求导过程，这里我们不展开 $\frac{\partial{y_{n(L),L}}}{\partial{z_{n(L),L}}}$ ，完成对 $y_{n(L-1),L-1}$ 求导，我们开始对 $w_{n(L-2),n(L-1),L-1}$ 求导 $\frac{\partial{LOSS}}{\partial{w_{n(L-2),n(L-1),L-1}}} =\frac{\partial{LOSS}}{\partial{y_{N(L-1),L-1}}}\frac{\partial{y_{N(L-1),L-1}}}{\partial{z_{n(L-1),L-1}}}\frac{\partial{z_{n(L-1),L-1}}}{\partial{w_{n(L-2),n(L-1),L-1}}}\\ = y_{n(L-2),L-2}\frac{\partial{y_{N(L-1),L-1}}}{\partial{z_{n(L-1),L-1}}}\sum_{n(L)=1}^{N(L)}{\frac{\partial{y_{n(L),L}}}{\partial{z_{n(L),L}}}delta_{n(L),L}w_{n(L-1),n(L),L}}$ $\frac{\partial{LOSS}}{\partial{b_{n(L-1),L-1}}} =\frac{\partial{LOSS}}{\partial{y_{N(L-1),L-1}}}\frac{\partial{y_{N(L-1),L-1}}}{\partial{z_{n(L-1),L-1}}}\frac{\partial{z_{n(L-1),L-1}}}{\partial{b_{n(L-1),L-1}}}\\ = \frac{\partial{y_{N(L-1),L-1}}}{\partial{z_{n(L-1),L-1}}}\sum_{n(L)=1}^{N(L)}{\frac{\partial{y_{n(L),L}}}{\partial{z_{n(L),L}}}delta_{n(L),L}w_{n(L-1),n(L),L}}$ 下面我们将 $L$ 换成 $l$ ，给出一个更加普遍的计算公式：求对 $y_{N(l-1),l-1}$ 的导数 $\frac{\partial{LOSS}}{\partial{y_{N(l-1),l-1}}} = \sum_{n(l)=1}^{N(l)}{\frac{\partial{LOSS}}{\partial{y_{n(l),l}}}\frac{\partial{y_{n(l),l}}}{\partial{z_{n(l),l}}}w_{n(l-1),n(l),l}}$ 求对 $w_{N(l-2),N(l-1),l-1}$ 的导数 $\frac{\partial{LOSS}}{\partial{w_{n(l-2),n(l-1),l-1}}} =\frac{\partial{LOSS}}{\partial{y_{N(l-1),l-1}}}\frac{\partial{y_{N(l-1),l-1}}}{\partial{z_{n(l-1),l-1}}}\frac{\partial{z_{n(l-1),l-1}}}{\partial{w_{n(l-2),n(l-1),l-1}}}\\ = y_{n(l-2),l-2}\frac{\partial{y_{N(l-1),l-1}}}{\partial{z_{n(l-1),l-1}}}\frac{\partial{LOSS}}{\partial{y_{N(l-1),l-1}}}$ 求对 $b_{N(l-1),l-1}$ 的导数 $\frac{\partial{LOSS}}{\partial{b_{n(l-1),l-1}}} =\frac{\partial{LOSS}}{\partial{y_{N(l-1),l-1}}}\frac{\partial{y_{N(l-1),l-1}}}{\partial{z_{n(l-1),l-1}}}\frac{\partial{z_{n(l-1),l-1}}}{\partial{b_{n(l-1),l-1}}}\\ = \frac{\partial{y_{N(l-1),l-1}}}{\partial{z_{n(l-1),l-1}}}\frac{\partial{LOSS}}{\partial{y_{N(l-1),l-1}}}$ 推导完毕！结果中 $\frac{\partial{LOSS}}{\partial{y_{N(l-1),l-1}}}$ 从上一层计算的结果中带入，再YOLOv3中为l.delta的传播。 $\frac{\partial{y_{N(l-1),l-1}}}{\partial{z_{n(l-1),l-1}}}$ 根据不同的激活公式带入即可。有了这个推导，我们就可以一点一点分析YOLOv3源码。因为还涉及到feature map卷积计算中的重排和GEMM，内容较多，我们放在下一篇中分析。

Processed: 0.010, SQL: 9

YOLOv3反向传播原理 之 公式推导