机器学习03 basic concept

    技术2022-07-16  72

    了解不同module误差的来源,从而来improve这个module

    误差来源:bias和varians,区分误差来源:

    bias:连trianing data都不能很好匹配

    variance:trianing data匹配很好,但是testing data的误差很大

    来源一:bias(偏差)

    由各种特征组成,会影响是否能准确的找到最终function的范围,如果bais过大,则不可能找到,为欠拟合。

    解决方法:

    改变之前module中的特征

    来源二:variance(方差)

    有特征的高次组成,如果variance过大,会出现虽然在正确function周围,但是无法“聚焦”的情况,为过拟合。

    解决方法:

    增加训练数据或者正则化(使曲线平滑)

    Model selected

    每组training data都有自己的bias,如果用在testing data上会有很大误差。所以,应该讲training data分为trianing和validation,进行交叉验证。

    Processed: 0.008, SQL: 9