分类样本不均

实际使用分类器的时候，经常遇到分类样本不均衡的问题。而只有分类样本较为均衡，才可以达到比较好的分类效果。

1、如果各个类别的样本数量都非常多，则对于样本少的类，使用全部样本。

而对于样本多的类，进行采样。采样可以随机采样，或者如果有某一类别里，有一部分数据非常接近，比如奈雪的茶、koi在茶饮里占了几百家，对于这部分采样的时候，要比总体采样比例低。

也即尽可能的让样本丰富。

2、如果样本少的类，样本过于少，则可以使用召回率或者F1，而非准确率进行评测。

3、在文本分类的时候，我们可以通过复制多份少类样本，并且乱序，比如：“我知道了，谢谢”。和“谢谢，我知道了”，

或者去除停用词与不去除停用词，“我工作上有很多事情要处理” 和“我的工作上有很多的事情要处理”，他们意思是一样的。思想类似于在图像识别时，如果样本比较少，就使用平移、旋转等手段丰富样本。

posted @ 2019-04-10 15:43 yjy888 阅读(483) 评论(0) 编辑收藏举报

刷新页面返回顶部