样本不均衡是机器学习,深度学习中常见问题。
分类任务 A 95 B 5
模型将所有样本预测为A,那么正确率可以达到95%。
https://www.zhihu.com/question/30492527
第一种 是把多的那个组变少 降采样
第二种 是把少的那个组变多 过采样 最简单的是oversampling,由于其局限性,又有很多根据已有的数据生成新数据的方法,比如各种变体的synthetic sampling。把少数类的数据复制几份,并适当加噪声。这可以增强模型的鲁棒性。
第三种 加权,对于少的样本,加更高的权重
第四种 通过组合/集成方法解决样本不均衡 组合/集成方法指的是在每次生成训练集时使用所有分类中的小样本量,同时从分类中的大样本量中随机抽取数据来与小样本量合并构成训练集,这样反复多次会得到很多训练集和训练模型。最后在应用时,使用组合方法(例如投票、加权投票等)产生分类预测结果。例如,在数据集中的正、负例的样本分别为100和10000条,比例为1:100。此时可以将负例样本(类别中的大量样本集)随机分为100份(当然也可以分更多),每份100条数据;然后每次形成训练集时使用所有的正样本(100条)和随机抽取的负样本(100条)形成新的数据集。如此反复可以得到100个训练集和对应的训练模型。这种解决问题的思路类似于随机森林。在随机森林中,虽然每个小决策树的分类能力很弱,但是通过大量的“小树”组合形成的“森林”具有良好的模型预测能力。如果计算资源充足,并且对于模型的时效性要求不高的话,这种方法比较合适。
建模方法。 A. 可以采用对非平衡数据集不敏感的算法。 B. 用bagging/ boosting/ ensemble等模型平均的方法。 C. cost-sensitive learning。 评价模型的方法。用confusion matrix, AUC/ROC等方法来评估模型。