摘要: 非均衡分类问题: 1、样本正反例数量差距大; 2、不同类别的分类代价不相等。 除了分类错误率,还有以下分类性能度量指标:正确率、召回率和ROC曲线 正确率:预测为正例的样本中真正正例的比例。 召回率:预测为正例的真实正例占所有真实正例的比例。 正确率和召回率很难同时达到很高。 ROC曲线:横轴为伪正 阅读全文
posted @ 2018-11-07 22:18 我的下铺刚田武 阅读(166) 评论(0) 推荐(0) 编辑
摘要: boosting:不同的分类器是通过串行训练而获得的,每个新分类器都根据已经训练出的分类器的性能来进行训练。通过集中关注被已有分类器错分的那些样本来获得新的分类器。 权重alpha:弱分类器的线性组合系数,用来构成完整分类器。对每个数据的分类时,其结果是弱分类器结果的线性组合。 权重D:样本的权重向 阅读全文
posted @ 2018-11-07 20:51 我的下铺刚田武 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 正确加载方法: 错误加载方法: 原因:获取numFeatures时使用了readline()函数,使得句柄f移动到第二行,下面代码中的readlines()函数只能读取剩下的行,相当于少读取了第一行。 阅读全文
posted @ 2018-11-07 17:26 我的下铺刚田武 阅读(1364) 评论(0) 推荐(0) 编辑