JHJ_BABY

导航

2017年9月1日 #

分类中数据不平衡问题的解决经验[转载]

摘要: 问题:研究表明,在某些应用下,1∶35的比例就会使某些分类方法无效,甚至1∶10的比例也会使某些分类方法无效。(1)少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低(2)数据碎片。很多分类算法采用分治法,样本空间的逐渐划分会导致数据碎片问题 阅读全文

posted @ 2017-09-01 19:13 JHJ_BABY 阅读(174) 评论(0) 推荐(0) 编辑

机器学习积累【2】

摘要: 1、样本不平衡问题 正样本多余正样本: 1)欠采样,随机抽取负样本去除,使的正负样本比例平衡。缺点是会丢失多数类的一些重要信息,不能够充分利用已有的信息 2)过采样,增加一些正样本,使得正负样本比例接近。最简单的办法是简单复制少数类样本,缺点是可能导致过拟合,没有给少数类增加任何新的信息。改进的方法 阅读全文

posted @ 2017-09-01 19:12 JHJ_BABY 阅读(230) 评论(0) 推荐(0) 编辑