摘要:
推荐一篇英文的博客:
8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset
一个不平衡的两类数据集,使用准确率(accuracy)作为模型评价指标,最后得到的准确率很高,感觉结果很棒大功告成了,但再看看混淆矩阵(confusion matrix)或者少数类(样本数量少的这一类)的召回率(recall),你的心可能就拔凉拔凉的。你可能会发现少数类的样本几乎完全分错,即模型将样本基本预测为了多数类(样本数量多的一类)。 阅读全文