一、【统计学习方法概论】 1.机器学习的定义,以及与数据挖掘的关系 2.统计学习的定义、特点和目的 3.监督学习的基本概念 3.1 输入空间、特征空间与输出空间 I.输入空间:将输入所有可能取值的集合 II.输出空间:将输出所有可能取值的集合 III.特征空间:所有特征向量存在的空间 3.2 联合概率分布 I.监督学习假设输入与输出的随机变量X,Y遵循联合概率分布P(X,Y) II.训练和测试数据看作是P(X,Y)独立同分布产生的 3.3 假设空间 I.监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型表 示,模型属于输入空间到输出空间的映射的集合。假设空间确定意味着 学习范围的确定。 II.监督学习的模型可以是条件概率分布或者是决策函数 4.统计学习三要素 4.1模型 所要学习的条件概率分布或决策函数 4.2策略 I.目的:在于从假设空间选取最优模型 II.损失函数:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数 III.风险函数:损失函数的期望 IV.经验风险:模型关于训练数据集的平均损失称为经验风险 V.经验风险最小化&结构风险最小化:用于对经验风险进行矫正 VI.监督学习问题变成了经验风险或结构风险的最优化问题 4.3 算法 指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后考虑用什么的算法求解最优模型。 5. 模型评估与模型选择 统计学习的目的是使学到的模型不仅对已知数据而且对未知数据都有很好的预测能力,不同的学习方法会给出不同的模型。 5.1 训练误差 训练误差是模型关于训练数据集的平均损失。
5.2 测试误差 测试误差是模型关于测试数据集的平均损失。
6.过拟合与模型选择 I.当假设空间含有不同复杂度的模型时,就要面临模型选择的问题 II.一味地追求提高对训练数据的预测能力,导致所选模型复杂度过高,成为过拟合 7.防止过拟合方法 I.正则化:即结构风险最小化的实现,正则化项可以是L1正则或L2正则,正则化的作用是选择了经验风险和模型复杂度同时较小的模型 II.交叉验证:验证集用于模型的选择,在学习到不同复杂度的模型中,选择对验证集有最小预测误差的模型,由于验证集有足够多的数据,用它对模型进行选择是有效的 8.泛化能力与泛化误差上界 I.泛化能力是指学习到的模型对未知数据的预测能力 II.泛化误差上界就是所学习到的模型的期望风险 III.泛化误差上界是用来比较两种学习方法的优劣的 当样本容量增加时,泛化上界趋于0 当假设空间容量增大时,模型就越难学,泛化误差上界就越大 IV.泛化误差上界定理及证明(了解) 9.生成模型与判别模型 I.简单的说生成模型就是求联合概率分布,然后通过贝叶斯公式求条件概率分布;而判别模型直接求条件概率分布 II.生成模型的特点 可以从统计的角度表示数据的分布情况,能反映同类数据本身的相似度 对于含有隐变量的问题时,仍然可以使用生成模型求的 III.判别式模型的特点 模型直接学习的是条件概率分布,所以不能反映数据本身的特性,目的在于寻找类别之间的差异,不实用含有隐变量的监督学习 10.分类问题 分类问题是监督学习的一个核心问题。 I.输入变量X可以是连续的也可以是离散的,监督学习从中学习到一个分类模型,称为分类器。 II.二类分类问题 常用的评价指标是精确率与召回率。 III.分类将根据数据的特性分门别类,如文本分类,可分为诸多领域。 11.标注问题 标注也是监督学习的问题 I.更复杂的结构预测问题,输入是一个观测序列,输出是一个状态序列 II.评价标注模型的指标与评价分类的一样,常用又标注准确率、精确率和召回率。 III.如从英语文章抽取基本名字短语。 12.回归问题 回归问题是监督学习的另一个重要问题。 I.用于预测输入变量(自变量)和输出变量(因变量)之间的关系 II.回归学习最常用的损失函数是平方损失函数,可以用最小二乘法解决此类问题
【学习总结和心得】 1.本章的概念与公式都基于概率论,对概率论做了相关的知识回顾。了解到了数学知识对统计学习的重要性。 2.本章的一开始接触还是感觉有点抽象,好在有公式可以加以理解。对于生成模型与判别模型理解还不是很深。