摘要: 概念: 特征工程:本质上是一项工程活动,他目的是最大限度地从原始数据中提取特征以供算法和模型使用 特征工程的重要性:特征越好,灵活性越强、模型越简单、性能越出色。 特征工程包括:数据处理、特征选择、维度压缩 量纲不一: 就是单位,特征的单位不一致,不能放在一起比较 通过:0-1标准化、Z标准化、No 阅读全文
posted @ 2018-10-06 19:42 我不要被你记住 阅读(1173) 评论(0) 推荐(0) 编辑
摘要: 概念: 支持向量机(Support Vector Machine) SVM属于一般化线性分类器,这类分类器的特点是他们能够同时最小化经验误差和最大化几何边缘区,因此支持向量机也被称为最大边缘区分类器。 阅读全文
posted @ 2018-10-05 23:45 我不要被你记住 阅读(717) 评论(0) 推荐(0) 编辑
摘要: 概念 随机森林(RandomForest):随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别数输出的类别的众数而定 优点:适合离散型和连续型的属性数据;对海量数据,尽量避免了过度拟合的问题;对高维数据,不会出现特征选择困难的问题;实现简单,训练速度快,适合 进行分布式计算 1 impo 阅读全文
posted @ 2018-10-05 23:30 我不要被你记住 阅读(3819) 评论(0) 推荐(0) 编辑
摘要: 概念 决策树(Decision Tree):它通过对训练样本的学习,并建立分类规则,然后依据分类,对新样本数据进行分类预测,属于有监督学习 优点:决策树易于理解和实现,决策树可处理数值型和非数值型数据 步骤 导入数据,确定虚拟变量的列,然后遍历这些列,将这些类的数据转换为分类型数据,再通过get_d 阅读全文
posted @ 2018-10-05 23:16 我不要被你记住 阅读(1356) 评论(0) 推荐(0) 编辑
摘要: pandas之get_dummies 方法:pandas.get_dummies(data,prefix=None,prefix_sep="_",dummy_na=False,columns=None,sparse=False,drop_first=False) 该方法可以将类别变量转换成新增的虚拟 阅读全文
posted @ 2018-10-05 20:21 我不要被你记住 阅读(2277) 评论(0) 推荐(0) 编辑
摘要: 概念 监督学习(Supervised Learning) 从给定标注的训练数据集中学习出一个函数,根据这个函数为新函数进行标注 无监督学习(Unsupervised Learning) 从给定无标注的训练数据中学习出一个函数,根据这个函数为所有数据标注 分类(Classification) 监督学习 阅读全文
posted @ 2018-10-04 23:25 我不要被你记住 阅读(1407) 评论(0) 推荐(0) 编辑
摘要: 概念: 神经网络:全称为人工神经网络,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型 生物神经网络:神经细胞是构成神经系统的基本单元,称为生物神经元,简称神经元 一般采用三到五层 首先导入自变量和因变量 1 import pandas; 2 from pan 阅读全文
posted @ 2018-10-04 20:03 我不要被你记住 阅读(2357) 评论(0) 推荐(0) 编辑
摘要: 概念 针对因变量为分类变量而进行回归分析的一种统计方法,属于概率型非线性回归 优点:算法易于实现和部署,执行效率和准确度高 缺点:离散型的自变量数据需要通过生成虚拟变量的方式来使用 在线性回归中,因变量是连续性变量,那么线性回归能根据因变量和自变量存在的线性关系来构造回归方程,因变量变成分类变量后就 阅读全文
posted @ 2018-10-04 17:53 我不要被你记住 阅读(2439) 评论(0) 推荐(0) 编辑
摘要: 1、使用scatter_matrix判断个特征的数据分布及其关系 散步矩阵(scatter_matrix) Pandas中散步矩阵的函数原理 参数如下: frame:(DataFrame),DataFrame对象 alpha:(float,可选),图像透明度,一般取(0,1] figsize:((f 阅读全文
posted @ 2018-10-04 11:45 我不要被你记住 阅读(5420) 评论(0) 推荐(0) 编辑
摘要: 简单线性回归 步骤: 1、读取数据 2、画出散点图,求x和y 的相关系数:plt.scatter(x,y),x和y是dataframe 3、估计参数模型,建立回归模型:lrModel=LinearRegression() 4、训练模型: lrModel.fit(x,y) 5、对回归模型进行检验: l 阅读全文
posted @ 2018-10-03 23:27 我不要被你记住 阅读(3091) 评论(0) 推荐(0) 编辑