摘要: 支持向量机的目的是寻找一个能讲两类样本正确分类的超平面,很多时候这些样本并不是线性分布的。 由此,可以将原始特征空间映射到更高维的特征空间,使其线性可分。而且,如果原始空间是有限维,即属性数量有限, 那么一定存在一个高维特征空间使样本可分。 k(.,.)就是核函数。整理后 定理证明:只要一个对称函数 阅读全文
posted @ 2018-08-22 11:05 我不是小鲁班 阅读(1120) 评论(0) 推荐(0) 编辑
摘要: 数据分析师的成长之路 在学习数据分析之前应该明白几点 数据初期的准备通常占整个数据挖掘项目工作量的70%左右。 数据分析师本身融合了业务知识、统计学和计算机等学科,并不是新的技术。 数据分析更适合业务人员学习(相比技术人员学习业务来的更高效) 数据分析项目通常需要重复一些毫无技术含量的工作。 以数据 阅读全文
posted @ 2018-08-21 14:12 我不是小鲁班 阅读(630) 评论(0) 推荐(0) 编辑
摘要: 在绘制数据分布条形图时,要更改y轴的刻度很简单,直接在图形编辑窗口点击y轴修改就可以了。 而x轴的间隔自动设置为1,如果想要更改组距,可以按照以下方式: 点击重新编码为不同变量 选择要更改的变量,在【输出变量】里输入新的名称,点击【更改】 然后点击【旧值和新值】 添加需要更改的数据范围,比如5-10 阅读全文
posted @ 2018-08-17 14:38 我不是小鲁班 阅读(3376) 评论(0) 推荐(0) 编辑
摘要: 总觉得有些技能学会了是不会忘的,但是还是要记录一下,怕记忆力不像狗皮膏药,并不那么牢固。 1、文件的合并 两个数据文件的合并 点击添加个案,这一步按照自己的需求选择,也可以打开外部数据集,在这里打开的数据集都是sav格式的。 在这一步选择合并的数据内容,按照什么数据合并,要求数据中至少是有一列数据相 阅读全文
posted @ 2018-08-15 15:54 我不是小鲁班 阅读(2768) 评论(0) 推荐(0) 编辑
摘要: 查找路径下指定文件名并返回 os.walk()返回Directory tree generator。每次生成格式为(dirpath, dirnames, filenames) 的tuple,元素依次是当前路径、当前路径下文件夹列表、当前路径下文件名列表。 list的.append()、.extend 阅读全文
posted @ 2018-08-04 09:31 我不是小鲁班 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 在分类问题中,有存在正反例数目差异较大的情况,这种情况叫做类别不平衡。 针对这种问题,解决方式主要有3种:假设正例数量大,反例数目极小。 1、减少正例的数量,使得数据平衡,再进一步分类,这种情况属于“欠采样”; 2、增加反例的数目平衡数据,再分类,这种称为“过采样”; 3、阈值移动:直接使用原始数据 阅读全文
posted @ 2018-08-03 15:38 我不是小鲁班 阅读(6807) 评论(0) 推荐(0) 编辑
摘要: 1、下载 下载地址:http://spark.apache.org/downloads.html。 选择下面版本下载。 2、操作流程:https://blog.csdn.net/nxw_tsp/article/details/78281533 阅读全文
posted @ 2018-08-03 12:21 我不是小鲁班 阅读(239) 评论(0) 推荐(0) 编辑
摘要: 详细过程: 1、VMware安装; 2、centos 6 安装 3、jdk下载安装配置 4、Hadoop 安装配置 1、VMware Workstation 安装: https://www.vmware.com/cn/products/workstation-pro.html 下载安装,很简单 阅读全文
posted @ 2018-08-03 10:45 我不是小鲁班 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 决策树可以分成ID3、C4.5和CART。 CART与ID3和C4.5相同都由特征选择,树的生成,剪枝组成。但ID3和C4.5用于分类,CART可用于分类与回归。 ID3和C4.5生成的决策树可以是多叉的,每个节点下的叉树由该节点特征的取值种类而定,比如特征年龄分为(青年,中年,老年),那么改节点下 阅读全文
posted @ 2018-08-03 10:16 我不是小鲁班 阅读(17356) 评论(0) 推荐(0) 编辑
摘要: 1、pandas解决“pandas.parser.CParserError: Error tokenizing data. C error: Expected 2 fields in line 3, s” 2、中文编码问题 【所谓unicode】 unicode是一种类似于符号集的抽象编码,它只规定 阅读全文
posted @ 2018-08-02 14:08 我不是小鲁班 阅读(1088) 评论(0) 推荐(0) 编辑