针对回归模型,最常用的为均方误差估计(Mean Squarred Error) M S E = 1 n Σ i = 1 n ( f β ′ ( x i ) − y i ) 2 MSE=\frac{1}{n}\Sigma^n_{i=1}(f'_{\beta}(x_i)-y_i)^2 MSE=n1Σi=1n(fβ′(xi)−yi)2
模型评价:expected lowest testing MSE注意学习模型的估算参数 β \beta β是lowest training MSE模型需要在方差(variance)与偏差(bias)之间平衡二者的平衡
模型方差大,方法自由度就高,趋于非线性,拟合训练数据好(偏差小)偏差大且模型方差小(趋于线性),训练精度相对低,但测试集上泛化能力强理想的学习方法:低方差,低偏差( f f f形式变化尽可能少)如图,左图中黑线是真实的 f f f,右图金黄线是training情况,右图灰色线是testing情况图解偏差与方差 如图
期望的学习方法:低偏差,低方差(左上图)偏差:准确度(点集质心距离靶心越近越好)(右上图)方差:精度(点越密越好)(左下图)留一(leave-one-out)交叉验证方法: 数据集包括n个样例,选一份做验证,其它n-1份为训练集,重复n次 非常高的计算代价(若n很大),评估一个学习算法需要生成模型n次,取平均的test MSE L O O C V ( n ) = 1 n Σ i = 1 n M S E i LOOCV_{(n)}=\frac{1}{n}\Sigma^n_{i=1}MSE_i LOOCV(n)=n1Σi=1nMSEi 适用于样例集较小情况,充分利用训练数据进行模型评估的方法
数据集等分为k份,选一份做验证,其它k-1份为训练集,重复k次 较高的计算代价,评估一个学习算法需要k次生成模型,取平均的test MSE C V ( k ) = 1 k Σ i = 1 k M S E i CV_{(k)}=\frac{1}{k}\Sigma^k_{i=1}MSE_i CV(k)=k1Σi=1kMSEi K-折交叉验证较理想地折中考虑偏差与方差情况
如图