避免样本不均衡的一种思路 - youxiaogeo

我们通常训练出一个分类模型时，再用这个模型对训练集合或者测试集合分类时，会发现分类会侧重于某一个类别

这时候可能出现训练样本不均衡，或者边界样本（这里边界样本就是指那些不容易分类，或者分类错误率主要贡献的样本）

这时候可以将分类错误的样本单独分出来，并手动再标注下，形成新的数据集合，然后，基于这个新的数据集合进行retrain

可以使得训练更快速。当然，你也可以通过适当的overfiting来解决，但是，训练到后期，收敛就变慢了，因此这样的方法更加

直接有效。

发表于 2017-09-11 10:27 youxiaogeo 阅读(402) 评论(0) 编辑收藏举报