XGBoost

技术2022-07-11 101

文章目录

Bagging和BoostingXGboost提升树——基于残差的训练模型构造目标函数树

f_{K}?

树的复杂度

\Omega(f_{K})?

树的复杂度新的目标函数如何寻找树的形状？

Bagging和Boosting

相同点：都是集成模型。不同点：1. Bagging是过拟合的弱分类器的集成，算各模型预测值的加权平均，如随机森林； 2. Boosting是欠拟合弱分类器的集成，算各模型预测值的和。

XGboost提升树——基于残差的训练

Example：

训练数据

(x, y)

，得到预测值

\hat{y}_{1}

，残差

y-\hat{y}_{1}

，较大；继续训练数据

y-\hat{y}_{1})

，得到预测值

\hat{y}_{2}

，残差

y-\hat{y}_{1}-\hat{y}_{2}

，还挺大；继续训练数据

y-\hat{y}_{1}-\hat{y}_{2})

，得到预测值

\hat{y}_{3}

，残差

y-\hat{y}_{1}-\hat{y}_{2}-\hat{y}_{3}

，小了.

这样，就可以用 $\hat{y}_{1}+\hat{y}_{2}+\hat{y}_{3}$ 更准确地预测 $y$ .

模型

$\begin{aligned} \hat{y}^{(0)} &= f_{0}(x) = 0 \\ \hat{y}^{(1)} &= \hat{y}^{(0)} + f_{1}(x) = f_{1}(x)\\ \vdots \\ {\color{red}\hat{y}} = \hat{y}^{(K)} &= \hat{y}^{(K-1)} + f_{K}(x) = \sum_{k=1}^{K}f_{k}(x_{i})\\ \end{aligned}$

构造目标函数

$\begin{aligned} L &= \sum_{i=1}^{n}l(y_{i},\hat{y}_{i}) + \sum_{k=1}^{K}\Omega(f_{k}) \end{aligned}$ 其中， $l(y_{i},\hat{y}_{i})$ 表示第i个样本的损失函数， $\Omega(f_{k})$ 表示第k棵树的复杂度。在生成前K-1棵树之后，要训练第K棵树，那么： $\begin{aligned} L &=\sum_{i=1}^{n} l\left(y_{i},\hat{y}_{i}^{(K-1)}+f_{K}(x_{i})\right) + \sum_{k=1}^{K}\Omega(f_{k})\\ &\approx \sum_{i=1}^{n} \left\{ l\left(y_{i},\hat{y}_{i}^{(K-1)}\right) + \partial_{\hat{y}_{i}^{(K-1)}} l\left(y_{i},\hat{y}_{i}^{(K-1)}\right)f_{K}(x_{i}) \right. \\ &\left.\quad+ \frac{1}{2}\partial^{2}_{\hat{y}_{i}^{(K-1)}} l\left(y_{i},\hat{y}_{i}^{(K-1)}\right)f_{K}^{2}(x_{i}) \right\}+ \sum_{k=1}^{K}\Omega(f_{k}) \end{aligned}$ 由于前K-1棵树的部分已知，所以上述目标函数可以简写为： $L^{(K)} = \sum_{i=1}^{n} \left\{ g_{i}f_{K}(x_{i}) + \frac{1}{2}h_{i}f_{K}^{2}(x_{i}) \right\} + \Omega(f_{K}),$ 其中， $\begin{aligned} g_{i} &= \partial_{\hat{y}_{i}^{(K-1)}} l\left(y_{i},\hat{y}_{i}^{(K-1)}\right), \\ h_{i} &= \partial^{2}_{\hat{y}_{i}^{(K-1)}} l\left(y_{i},\hat{y}_{i}^{(K-1)}\right). \end{aligned}$

树 $f_{K}?$ 树的复杂度 $\Omega(f_{K})?$

在树的形状已知的情况下，用 $w=(w_{1}, \cdots, w_{T})$ 表示每个叶节点的值，用 $q(x_{i})$ 表示每个样本点所在的叶节点的位置，记 $I_{j} = \{ i \mid q(x_{i})=j \}$ $f_{K}(x_{i}) = w_{q(x_{i})}$

树的复杂度

$\Omega(f_{K}) = \gamma T + \frac{1}{2}\lambda\sum_{j=1}^{T}w_{j}^{2}$ 其中，T是叶节点个数。

新的目标函数

将 $f_{K}$ 和 $\Omega(f_{K})$ 代入损失函数得： $\begin{aligned} obj = L^{(K)} &= \sum_{i=1}^{n} \left\{ g_{i}f_{K}(x_{i}) + \frac{1}{2}h_{i}f_{K}^{2}(x_{i}) \right\} + \gamma T + \frac{1}{2}\lambda\sum_{j=1}^{T}w_{j}^{2} \\ &= \sum_{i=1}^{n} \left\{ g_{i}w_{q(x_{i})}+ \frac{1}{2}h_{i}w_{q(x_{i})}^{2} \right\} + \gamma T + \frac{1}{2}\lambda\sum_{j=1}^{T}w_{j}^{2} \\ &= \sum_{j=1}^{T}\left[ \left(\sum_{i\in I_{j}}g_{i}\right)w_{j} + \frac{1}{2}\left(\sum_{i\in I_{j}}h_{i}+\lambda\right)w_{j}^{2}\right] + \gamma T \end{aligned}$ 所以 $w_{j}^* = -\frac{G_{j}}{H_{j}+\lambda} \\ obj^*=-\frac{1}{2}\sum_{j=1}^{T}\frac{G_{j}^{2}}{H_{j}+\lambda} + \gamma T$ 其中 $G_{j} = \sum\limits_{i\in I_{j}}g_{i}, H_{j} = \sum\limits_{i\in I_{j}}h_{i}$ . 所以在树的形状已知的情况下可以求出最优参数 (即每个叶节点的值)。

如何寻找树的形状？

贪心算法：每次都找到一个特征k，使得最小化 $obj^{*(new)}$ ，也就是最大化 $obj^{*(old)}-obj^{*(new)}$ 其中， $\begin{aligned} obj^{*(old)}-obj^{*(new)} = -\frac{1}{2}\left[\frac{(\sum_{i\in I_L}g_{i})^{2}}{\sum_{i\in I_L}h_{i}+\lambda} + \frac{(\sum_{i\in I_R}g_{i})^{2}}{\sum_{i\in I_R}h_{i}+\lambda} - \frac{(\sum_{i\in I}g_{i})^{2}}{\sum_{i\in I}h_{i}+\lambda} \right] - \gamma \end{aligned}$

Processed: 0.027, SQL: 9

XGBoost

文章目录

Bagging和Boosting

XGboost提升树——基于残差的训练

模型

构造目标函数

树 f K ? f_{K}? fK​? 树的复杂度 Ω ( f K ) ? \Omega(f_{K})? Ω(fK​)?

树的复杂度

新的目标函数

如何寻找树的形状？

树 $f_{K}?$ 树的复杂度 $\Omega(f_{K})?$