上文留下一个问题,正则项到底是如何控制模型复杂度的?权值越小模型复杂度越小?为什么权值越小模型复杂度越小?
1、模型与模型复杂度
在数据挖掘或机器学习领域我们常听到线性回归模型、逻辑回归模型、支持向量机、决策树、随机森林、XGBoost、LightGBM、神经网络等等,通常这么说是指模型结构不同的模型,这个时候所说的模型既可以是一个确定的模型,也可是一个不确定的模型,或者说是一个已训练好的模型,也可以是一个还未训练的模型。训练好的模型也就是模型参数已经确定了,可以用来预测了,这是一个确定的,具体的,可用的模型;未训练好的模型也就是模型参数还没确定,有待从模型假设空间中搜索(也就是训练)出一个具体的模型。
一个确定的模型没有复杂度的概念,一个权重为3,偏置为0的一元线性回归模型和一个权重为2,偏置为0的一元线性回归模型,二者的2范数分别是9和4,难道前者比后者更复杂?显然不是。
通常所说的模型复杂度是指不确定的模型的模型复杂度。不确定的模型就是模型参数还没确定,参数虽然没有确定,但是肯定有一个取值范围,这个取值范围对应了模型的假设空间,取值范围越大,假设空间越大,模型的表达能力就越强,也就是在假设空间搜索的时候更有可能搜索到一个过拟合训练集的确定模型。所以模型复杂度是指非确定模型的假设空间的大小,假设空间越大,模型越复杂。
2、正则项与模型复杂度
首先放上范数等值线图如下:
以右图中的2范数为例,通常所说正则项越小即指图中的圆的半径越小,半径越小模型越简单是指权值的取值范围在负半径长度到正半径长度之间,也就是说所有权值取值范围长度都为圆的直径,那么压缩这个圆的直径就是在压缩模型的假设空间,也就是所谓的模型变得更简单。
虽然直径减小可以压缩假设空间,但实际情况几乎不可能退化到一个点,这样模型很容易欠拟合,那么权值的取值为什么一定要在圆内?不可以在某个圆环内吗?
3、贝叶斯概率与正则项
很多资料都只是介绍在目标函数中添加正则项可以控制模型复杂度,防止过拟合,那第一个想到在目标函数中添加正则项的人是如何想到的?一个如此妙的项应该不是一拍脑门就直接加上去的,这后面一定有可以挖的东西。
果然挖到了与贝叶斯概率有关的最大后验估计与正则项的关系。在训练集D上求模型参数可以用最大化后验概率的方式来求解[1, 2]。
即:
取对数:
如果其中的先验概率服从标准正态分布,那么
也就是说最大化先验概率就是最小化权值向量的2范数,由于是标准正态分布所以正好是所有权值趋于0的时候概率最大,也就是说2范数的权值取值应该在圆内并且向圆心靠近。
如果其中的先验概率服从标准拉普拉斯分布,那么
也就是最大化先验概率就是最小化权值向量的1范数,由于是标准拉普拉斯分布,所以也是所有权值趋于0的时候概率最大,也就是说1范数的权值取值应该在菱形内并且向原点靠近。
参考文献
[1] https://zhuanlan.zhihu.com/p/55251269
[2] https://zhuanlan.zhihu.com/p/35356992
往期精彩回顾 适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑 AI基础下载机器学习的数学基础专辑获取一折本站知识星球优惠券,复制链接直接打开:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群请扫码进群: