[机器学习 04] 树，集成学习-sklearn

技术2022-07-10 423

树

特点：树结构清晰，而且运算快。关键问题：树的构建。缺点：树的能力太强，一般都会过拟合。——特征一层一层划分，可以把所有特征分完，所有的特征都会被分到最细，因此会造成数据过拟合。也因此，树可以剪枝。

1. 决策树

（1）决策树是一种分类树。（2）基础知识： ① 熵：信息的不确定性。（熵的最大化，可以达到最大的探索能力，即信息量越大，遇到的可能性越多。） ② 条件熵：再已知随机变量X的条件下，随机变量Y的不确定性。就是说，我们在不知道任何事情的情况下，不确定性最大，也就是信息量最多，当某事发生后，实际上某些事情就被确定了，剩下的不确定性就变少了，信息量也就变少了。 ③ 信息增益：表示已知特征X的信息而使得Y的信息的不确定性减少的程度。（就是发生某事后，不确定信息减少了，信息增益就是减少的这一部分，即信息增加了多少。——熵减去条件熵） ④ 信息增益率：假设H（D）为一个信息熵，当A事件发生后，H（D | A）为A发生后D的条件熵。信息增益为g（D，A） = H（D）-H（D | A）；信息增益率为g（D ，A）/ HA（D）；HA（D）为数据集D关于特征A的值的熵。（即信息增加的比率） ⑤ 基尼指数：表示集合D不确定性，基尼指数越小，样本的不确定性越小。（基尼指数取值范围0-1之间）（3）决策树的构建：按照数据的信息熵划分树的分支——熵越大，信息量越大。所以根结点的信息量最大，往下根据特征的不同，信息量逐渐降低。按照不同的划分标准，可以生成不同的决策树。 ① ID3：信息增益；各个结点上根据信息增益来选择进行划分。

缺点：没有剪枝；采用信息增益作为选择最优划分特征的标准，然而信息增益会偏向那些取值较多的特征。因此，改进可以用C4.5.

② C4.5：信息增益率；各个结点上根据信息增益率来选择进行划分。

信息增益率克服了用信息增益选择的不足；在构造树的过程中进行了剪枝；可对连续值与缺失值进行处理。

③ CART 分类回归树（可回归也可分类）：基尼指数；各个结点上根据基尼指数来选择进行划分。（4）剪枝：① 规定最大深度；② 规定每个子节点最小/最大的叶子数；③ 最大特征数。

# 决策树 # import numpy as np from sklearn import tree, datasets, preprocessing from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score import graphviz np.random.RandomState(0) # 加载数据 wine = datasets.load_wine() # 划分训练集与测试集 x, y = wine.data, wine.target x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3,random_state=0) # 数据预处理 scaler = preprocessing.StandardScaler().fit(x_train) x_train = scaler.transform(x_train) x_test = scaler.transform(x_test) # 创建模型 # 划分标准 gini 基尼指数 # max_depth=4 规定最大深度——相当于剪枝 clf = tree.DecisionTreeClassifier(criterion="gini",random_state=0,max_depth=4) # 模型拟合 clf.fit(x_train, y_train) # 预测 y_pred = clf.predict(x_test) # 评估 print(accuracy_score(y_test, y_pred)) # 查看特征权重 print(wine.feature_names) print(clf.feature_importances_) dot_data = tree.export_graphviz(clf, out_file=None, feature_names=wine.feature_names, class_names=wine.target_names, filled=True, rounded=True, special_characters=True) graph = graphviz.Source(dot_data) graph.render("wine")

2. 回归树

一般来讲，能用来分类的模型，都可以用来回归。 CART回归树：不断的进行二分类。红色线为普通的线性回归，另外两条线为限制不同深度后拟合得到的线。（可以看出决策树的能力非常强）

import numpy as np import matplotlib.pyplot as plt from sklearn.tree import DecisionTreeRegressor from sklearn import linear_model # Data set x = np.array(list(range(1, 11))).reshape(-1, 1) y = np.array([5.56, 5.70, 5.91, 6.40, 6.80, 7.05, 8.90, 8.70, 9.00, 9.05]).ravel() # Fit regression model model1 = DecisionTreeRegressor(max_depth=1) model2 = DecisionTreeRegressor(max_depth=3) model3 = linear_model.LinearRegression() model1.fit(x, y) model2.fit(x, y) model3.fit(x, y) # Predict X_test = np.arange(0.0, 10.0, 0.01)[:, np.newaxis] y_1 = model1.predict(X_test) y_2 = model2.predict(X_test) y_3 = model3.predict(X_test) # Plot the results plt.figure() plt.scatter(x, y, s=20, edgecolor="black", c="darkorange", label="data") plt.plot(X_test, y_1, color="cornflowerblue", label="max_depth=1", linewidth=2) plt.plot(X_test, y_2, color="yellowgreen", label="max_depth=3", linewidth=2) plt.plot(X_test, y_3, color='red', label='liner regression', linewidth=2) plt.xlabel("data") plt.ylabel("target") plt.title("Decision Tree Regression") plt.legend() plt.show()

集成学习

多个模型一起使用，规定某种评价标准，来得到目标结果。从而提高模型的泛化能力/鲁棒性。 ① 同一种模型，不同参数。 ② 不同模型，不同参数。决策方法： ① 平均方法：多个不同模型的预测结果占的权重都是一样的，取它们结果的平均作为最终结果。（bagging，随即深林。） ② boosting 递进式方法：结合多个弱模型集成一个较强的模型，再结合再增强。逐步提升模型的强度，得到更好的结果。（adaboost，GBRT）

1. 随机深林

# 随机深林 # 树的数量最大深度 clf = ensemble.RandomForestClassifier(n_estimators=25,max_depth=3) ''' def __init__(self, n_estimators=100, criterion="gini", max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0., max_features="auto", max_leaf_nodes=None, min_impurity_decrease=0., min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, max_samples=None): '''

2. Bagging

# bagging 可以用任意方法创建模型随机参数随机采样 # 模型模型数量（多少个模型进行集成）最大随机采样数最大随机特征数 clf = ensemble.BaggingClassifier(neighbors.KNeighborsClassifier(), n_estimators=10, max_samples=0.5, max_features=0.5) ''' def __init__(self, base_estimator=None, n_estimators=10, max_samples=1.0, max_features=1.0, bootstrap=True, bootstrap_features=False, oob_score=False, warm_start=False, n_jobs=None, random_state=None, verbose=0): '''

3. Adaboost

Adaboost算法是一种提升方法，将多个弱分类器，组合成强分类器。

① 初始化训练数据的权值分布，使得每个样本点开始都有相同的权重，1/N。 ② 训练弱分类器。如果某个样本已经被准确地分类，那么构造下一个训练分类器中，它的权重就被降低；相反，如果某个样本点没有被准确分类，那么它的权重就得到提高。 ③ 将各个训练得到的弱分类器组合成强分类器，不断更新每个分类器的权重，使得最终的分类函数中，误差较大的弱分类器话语权较小，反之误差较小的弱分类器话语权较大，最终的结果就是每一个分类器的加权平均。

# Adaboost clf = ensemble.AdaBoostClassifier(n_estimators=50)

4. GBRT

GBRT（梯度提升树）：对任意的可微损失函数的提升算法的泛化，即可回归亦可分类。

即每次计算都是为了减少上一次的残差，为了减少这些残差，在每次残差减少的梯度方向上建立一个新的模型。换句话说，就是每次调整参数，通过一个新的模型进行调整。优点： ① 对混合型数据的自然处理（异构特征）； ② 强大的预测能力； ③ 在输出空间中对异常点的鲁棒性。

# Fit regression model # GBRT model1 = ensemble.GradientBoostingRegressor(max_depth=1,n_estimators=20)

Processed: 0.016, SQL: 9