// // // //

2019年4月11日

摘要: 类别不均衡问题就是不同类别的样本数差别很大,很容易理解,不再赘述。 这种情况会导致模型的误判,比如2分类,正例998,反例2,那么即使我们所有的样本都识别为正例,正确率高达99.8%,然而并没有什么卵用。 对于类别不均衡问题,大体上主要有两种,即以数据为中心驱动和以算法为中心的解决方案。 数据策略 阅读全文
posted @ 2019-04-11 17:03 努力的孔子 阅读(517) 评论(0) 推荐(0) 编辑
 
摘要: 验证曲线是调节学习器的参数的,学习曲线是用来调节训练样本大小的。 从理论上来讲,如果数据“同质”,当数据量到达一定程度时,学习器可以学到所有的“特征”,继续增加样本没有作用。 那么到底多少样本是合适的呢? 做个实验 逐渐增大训练样本量,同时判断训练集和测试集的准确率,看看会发生什么 1. 首先从训练 阅读全文
posted @ 2019-04-11 11:57 努力的孔子 阅读(714) 评论(0) 推荐(0) 编辑
 
摘要: 通过验证一个学习器在训练集和测试集上的表现,来确定模型是否合适,参数是否合适。 如果训练集和测试集得分都很低,说明学习器不合适。 如果训练集得分高,测试集得分低,模型过拟合,训练集得分低,测试集得分高,不太可能。 示例代码 输出 参数gamma的调节 很小时,训练集和测试集得分都低,欠拟合 增大时, 阅读全文
posted @ 2019-04-11 11:32 努力的孔子 阅读(590) 评论(0) 推荐(0) 编辑
 
摘要: 网格搜索 对给定参数进行组合,用某标准进行评价,只适合小数据集 参数 estimator:一个学习器对象,它必须有.fit方法用于学习,.predict方法用于预测,.score方法用于评分 param_grid:字典或者字典的列表,每个字典是学习器的一个参数,key是参数名,value是备选参数序 阅读全文
posted @ 2019-04-11 10:54 努力的孔子 阅读(500) 评论(0) 推荐(0) 编辑
 
摘要: 我们知道训练模型时经常会有一些误差,我们要想弥补这些误差,首先要搞清楚这些误差是怎么产生的。 误差的分解 假设我们要预测的模型为 y=f(x),但是通常数据都会有一些噪音,我们的数据集为y=f(x)+noise,通常我们会假设数据服从正态分布,也就是噪音会均分分布在曲线两侧,所以噪音和为0。 假设有 阅读全文
posted @ 2019-04-11 10:51 努力的孔子 阅读(827) 评论(0) 推荐(0) 编辑