摘要: 在分类问题中,有存在正反例数目差异较大的情况,这种情况叫做类别不平衡。 针对这种问题,解决方式主要有3种:假设正例数量大,反例数目极小。 1、减少正例的数量,使得数据平衡,再进一步分类,这种情况属于“欠采样”; 2、增加反例的数目平衡数据,再分类,这种称为“过采样”; 3、阈值移动:直接使用原始数据 阅读全文
posted @ 2018-08-03 15:38 我不是小鲁班 阅读(6837) 评论(0) 推荐(0) 编辑
摘要: 多分类学习 面对多分类问题,可以直接把二分类学习方法推广到多分类。其基本思路就是“拆解法”,即将多分类任务 拆成多个二分类问题求解,然后为每一个二分类问题训练一个分类器,在测试时,对这些分类器的预测结果进行集成从而获得最终的多分类结果。 拆分策略 “一对一”:One vs One,简称OvO “一对 阅读全文
posted @ 2018-08-03 14:40 我不是小鲁班 阅读(812) 评论(0) 推荐(0) 编辑
摘要: 1、下载 下载地址:http://spark.apache.org/downloads.html。 选择下面版本下载。 2、操作流程:https://blog.csdn.net/nxw_tsp/article/details/78281533 阅读全文
posted @ 2018-08-03 12:21 我不是小鲁班 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 详细过程: 1、VMware安装; 2、centos 6 安装 3、jdk下载安装配置 4、Hadoop 安装配置 1、VMware Workstation 安装: https://www.vmware.com/cn/products/workstation-pro.html 下载安装,很简单 阅读全文
posted @ 2018-08-03 10:45 我不是小鲁班 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 决策树可以分成ID3、C4.5和CART。 CART与ID3和C4.5相同都由特征选择,树的生成,剪枝组成。但ID3和C4.5用于分类,CART可用于分类与回归。 ID3和C4.5生成的决策树可以是多叉的,每个节点下的叉树由该节点特征的取值种类而定,比如特征年龄分为(青年,中年,老年),那么改节点下 阅读全文
posted @ 2018-08-03 10:16 我不是小鲁班 阅读(17422) 评论(0) 推荐(0) 编辑