摘要: 概念: 支持向量机(Support Vector Machine) SVM属于一般化线性分类器,这类分类器的特点是他们能够同时最小化经验误差和最大化几何边缘区,因此支持向量机也被称为最大边缘区分类器。 阅读全文
posted @ 2018-10-05 23:45 我不要被你记住 阅读(709) 评论(0) 推荐(0) 编辑
摘要: 概念 随机森林(RandomForest):随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别数输出的类别的众数而定 优点:适合离散型和连续型的属性数据;对海量数据,尽量避免了过度拟合的问题;对高维数据,不会出现特征选择困难的问题;实现简单,训练速度快,适合 进行分布式计算 1 impo 阅读全文
posted @ 2018-10-05 23:30 我不要被你记住 阅读(3807) 评论(0) 推荐(0) 编辑
摘要: 概念 决策树(Decision Tree):它通过对训练样本的学习,并建立分类规则,然后依据分类,对新样本数据进行分类预测,属于有监督学习 优点:决策树易于理解和实现,决策树可处理数值型和非数值型数据 步骤 导入数据,确定虚拟变量的列,然后遍历这些列,将这些类的数据转换为分类型数据,再通过get_d 阅读全文
posted @ 2018-10-05 23:16 我不要被你记住 阅读(1340) 评论(0) 推荐(0) 编辑
摘要: pandas之get_dummies 方法:pandas.get_dummies(data,prefix=None,prefix_sep="_",dummy_na=False,columns=None,sparse=False,drop_first=False) 该方法可以将类别变量转换成新增的虚拟 阅读全文
posted @ 2018-10-05 20:21 我不要被你记住 阅读(2263) 评论(0) 推荐(0) 编辑