分类决策树模型是一种描述对实例进行分类的树形结构。决策树由节点和有向边组成。节点有内部节点(内部节点表示一个特征或属性,叶节点表示一个类)和叶节点组成
学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型
决策树的路径或者说其对应的if-then规则集合具有一个重要的性质:互斥并且完备(每一个实例都被一条路径或一条规则所覆盖,而且只被一条路径或一条规则所覆盖。)
特征选择问题 特征选择是决定用哪个特征来划分特征空间
选择的特征要能够一下子就能够将集合划分开(如一下子分成了9:1),目的是尽量避免选择一些让集合划分为55开的特征,也即是选择信息增益最大的特征,即选择不确定性减少最多的特征。
计算信息增益算法
ID3算法:从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征的不同取值建立子节点;再对子节点递归的调用以上方法,构建决策树;直到所有特征的信息增益均很小或没有特征可以选择为止。相当于用极大似然法进行概率模型的选择。(由于只有树的生成,该算法生成的树容易过拟合)
C4.5算法:和ID3算法相似,只改成了用信息增益比来选择特征