梯度下降法

技术2022-07-12 87

梯度下降法

1.原理

方向导数如果函数

z = f (x, y)

在点

P (x, y)

处可微，则函数在该点任一方向

L

的方向导数都存在，且有

\frac{\partial f}{\partial l}=\frac{\partial f}{\partial x } \cos{\alpha}+\frac{\partial f}{\partial y}\cos{\beta}

\alpha、\beta:为方向L的方向角

方向导数表征了函数沿任意方向的变化的速度梯度设函数

z = f (x, y)

在平面区域

D

内具有一阶连续偏导数，则对于每一个点

\in D

，向量

\left ( \frac{\partial f}{\partial x},\frac{\partial f}{\partial y} \right )

为函数

z = f (x, y)

在点

P

处的梯度，记为grad

f (x, y)

某点的梯度是某点方向导数的最大值，因此梯度代表的方向是函数增长最快的方向，而沿负梯度方向为函数下降最快的方向。

2.梯度下降法

初始化

\theta

(随机初始化)沿负梯度方向迭代，更新

\vec{\theta}

使

L(\vec{\theta})

更小

\vec{\theta}=\vec{\theta}-\alpha\frac{\partial L(\vec{\theta})}{\partial \vec{\theta}}

\alpha-学习率(步长)

直观理解

3.梯度下降法分类

随机梯度下降(SGD) 以单个样本的梯度作为权值 $\vec{\theta}$ 更新的方向 $l o s s = M e a n S q u a r e E r r o r$ $\vec{\theta}=\vec{\theta}-\alpha\frac{\partial L(\vec{\theta})}{\partial \vec{\theta}} \ \ \ \ \ L(\vec{\theta})=\frac{1}{2}(\hat{y_i}-y_i)^2$ $i - 表示某一个样本$ 特点：学习效率高，训练速度快，由于目标函数震荡严重，对于非凸函数可能跳过局部最优而找到更优解，但学习过程随机性大，导致学习过程难以收敛。

mini-batch梯度下降以较小批次的样本的平均梯度作为权值 $\vec{\theta}$ 更新的方向 $l o s s = M e a n S q u a r e E r r o r$ $\vec{\theta}=\vec{\theta}-\alpha\frac{\partial L(\vec{\theta})}{\partial \vec{\theta}} \ \ \ \ \ L(\vec{\theta})=\frac{1}{2b} \sum_{i=1}^{b}(\hat{y_i}-y_i)^2$ $b - 表示迷你批包含的样本个数、 i - 表示第 i 个样本$ 特点：是随机梯度下降与批梯度下降方法的折中，在提升学习效率的同时有效缓解学习过程的随机性，减弱了目标函数的震荡，也能在一定程度跳过局部最优而找到更优解，较为常用。

批梯度下降(BGD) 以所有样本的平均梯度作为权值 $\vec{\theta}$ 更新的方向 $l o s s = M e a n S q u a r e E r r o r$ $\vec{\theta}=\vec{\theta}-\alpha\frac{\partial L(\vec{\theta})}{\partial \vec{\theta}} \ \ \ \ \ L(\vec{\theta})=\frac{1}{2n} \sum_{i=1}^{n} (\hat{y_i}-y_i)^2$ $n - 表示所有样本个数、 i - 表示第 i 个样本$ 特点：将全部样本用于更新，能避免学习过程的随机性，确保模型的收敛，对于样本较多时，单次更新权值计算量大，训练速度慢，对于非凸函数容易陷入局部最优。

4.梯度下降优化算法

Momentum(动量)Nesterov(动量+预测)AdagradAdadeltaRMSpropAdam

Processed: 0.127, SQL: 12