摘要: sklearn.tree.DecisionTreeClassifier()函数用于构建决策树,默认使用CART算法,现对该函数参数进行说明,参考的是scikit-learn 0.20.3版本。 sklearn.tree.DecisionTreeClassifier(criterion=’gini’, 阅读全文
posted @ 2019-05-18 17:06 hgz_dm 阅读(10692) 评论(0) 推荐(0) 编辑
摘要: 平时会用到sklearn.neighbors.NNeighborsClassifier函数来构建K最邻近分类器,所以这里对NNeighborsClassifier中的参数进行说明,文中参考的是scikit-learn 0.20.3版本。 NNeighborsClassifier函数中参数如下: n_ 阅读全文
posted @ 2019-05-18 17:05 hgz_dm 阅读(489) 评论(0) 推荐(0) 编辑
摘要: 散点图可以显示观察数据的分布,描述数据的相关性,matlibplot也可以绘制散点图,不过我一般优先使用seaborn库的sctterplot()绘制,下面就介绍一下如何用seaborn.scatterplot()绘制散点图。 1. sctterplot()参数说明 x,y:输入的绘图数据,必须是数 阅读全文
posted @ 2019-05-18 17:03 hgz_dm 阅读(16486) 评论(0) 推荐(0) 编辑
摘要: 之前在一些数据分析案例中看到用 Go 语言绘制的雷达图,非常的漂亮,就想着用matlibplot.pyplot也照着画一个,遗憾的是matlibplot.pyplot模块中没有直接绘制雷达图的函数,不过可以基于‘polar’图形特征来改进,下面就记录一下如何绘制雷达图。 import numpy a 阅读全文
posted @ 2019-05-18 17:01 hgz_dm 阅读(1732) 评论(0) 推荐(0) 编辑
摘要: os.path模块主要用于获取文件的属性,这里对该模块中一些常用的函数做些记录。 os.abspath(path):获取文件的绝对路径。这里path指的是路径,例如我这里输入“data.csv” [In] os.path.abspath('data.csv') [Out] 'E:\\kaggle\\ 阅读全文
posted @ 2019-05-18 17:00 hgz_dm 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 柱状图用于反映数值变量的集中趋势,用误差线估计变量的差值统计。理解误差线有助于我们准确的获取柱状图反映的信息,因此打算先介绍一下误差线方面的内容,然后介绍一下利用seaborn库绘制柱状图。 1.误差线的理解 误差线源于统计学,表示数据误差(或不确定性)范围,以更准确的方式呈现数据。当label上有 阅读全文
posted @ 2019-05-18 16:55 hgz_dm 阅读(18375) 评论(0) 推荐(0) 编辑
摘要: 可视化是数据探索性分析及结果表达的一种非常重要的形式,因此打算写一个python绘图系列,本文是第一篇,先说一下pandas.DataFrame.plot()绘图功能。 pandas.DataFrame.plot() 在0.23.4版本的pandas中,pandas.DataFrame.plot() 阅读全文
posted @ 2019-05-18 16:53 hgz_dm 阅读(4117) 评论(0) 推荐(0) 编辑
摘要: 本文转载自Boblim的文章http://www.cnblogs.com/fnlingnzb-learner/p/8108119.html 在MySQL数据类型中,例如INT,FLOAT,DOUBLE,CHAR,DECIMAL等,它们都有各自的作用,下面我们就主要来介绍一下MySQL数据类型中的DE 阅读全文
posted @ 2019-05-18 16:51 hgz_dm 阅读(1010) 评论(0) 推荐(0) 编辑
摘要: (本文转载自Super_Mu的博客https://www.cnblogs.com/hhandbibi/p/7118740.html) 1.OLTP与OLAP的介绍 数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP( 阅读全文
posted @ 2019-05-18 16:50 hgz_dm 阅读(759) 评论(0) 推荐(0) 编辑
摘要: 关联分析方法具有产生大量模式的潜在能力,在真正的商业数据上,数据量与数据维数都非常大,很容易产生数以千计、万计甚至百万计的模式,而其中很大一部分可能并不让人感兴趣,筛选这些模式,以识别最有趣的模式并非一项平凡的任务,因为“一个人的垃圾在另一个人那里可能就是财富”,因此建立一组广泛接受的评价关联模式质 阅读全文
posted @ 2019-05-18 16:43 hgz_dm 阅读(2292) 评论(0) 推荐(0) 编辑
摘要: 关联分析用于发现隐藏在大型数据集中有意义的联系,属于模式挖掘分析方法,其为人熟知的经典应用当属沃尔玛超市里“啤酒与尿布”的关系挖掘了。关联分析的应用领域非常多,当数据集类型比较复杂时,进行关联分析采用的手段也相对复杂,本篇从最简单的事务数据集着手,对关联分析进行解读。 对大型事务数据集进行关联分析时 阅读全文
posted @ 2019-05-18 16:41 hgz_dm 阅读(2208) 评论(0) 推荐(0) 编辑
摘要: 前面介绍的支持向量机都是在数据线性可分条件下的,但我们拿到训练数据时,并不一定能知道数据是否线性可分,低维数据可以通过可视化的方式观察是否线性可分,而高维数据则很难判断其是否线性可分了。对线性不可分数据强行构建线性支持向量机分类可能会导致很差的分类效果,本篇博文就介绍一下如何在数据线性不可分条件下构 阅读全文
posted @ 2019-05-18 16:37 hgz_dm 阅读(407) 评论(0) 推荐(0) 编辑
摘要: 在支持向量机系列的前两篇中,介绍了一下完全线性可分向量机的构建过程,本篇将在此基础上介绍一下不完全线性可分的情况下实现支持向量机软间隔最大化过程。 1.线性分类时的两种情况 情况一: 考虑下面这张图中的情况,这些数据点是完全线性可分的,蓝色点与绿色点两类,分割线为紫色实直线 ​ 如果按完全线性可分的 阅读全文
posted @ 2019-05-18 16:36 hgz_dm 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 在上一篇博客中,较为详细的介绍了在数据完全线性可分的情况下,构建SVM模型的目标,并将构建目标转化为最大化几何距离的优化过程,本篇就将介绍具体优化时的计算过程。还是一样的,先推荐几篇不错的博文,大家也可以参考链接中的文章学习。 关于凸优化问题 http://www.360doc.com/conten 阅读全文
posted @ 2019-05-18 16:35 hgz_dm 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 最初学习、理解支持向量机时,有点费劲,参考了一些不错的书籍和博客,这里推荐一下: 1.支持向量机简介 支持向量机(Support Vector Machine,SVM)是一种二类分器,只支持两种类别的分类,不过在一些场合下可以将多个SVM串联起来,达到多分类的目的,下面先从二维情况入手,说明一下SV 阅读全文
posted @ 2019-05-18 16:34 hgz_dm 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 在很多的应用中,属性集与类别之间的关系是不确定的,换句话说,尽管测试样本的属性值与训练样本相同,但是也不一定能正确的预测其类别,其中一个原因是噪声的存在,另一个原因是某些影响分类的属性并没有出现在属性集中。贝叶斯方法都有所耳闻,之所以称为“朴素”贝叶斯方法,是因为在分类时,假定了“各变量间相互独立” 阅读全文
posted @ 2019-05-18 16:33 hgz_dm 阅读(536) 评论(0) 推荐(0) 编辑
摘要: 最邻近分类是分类方法中比较简单的一种,下面对其进行介绍 1.模型结构说明 最邻近分类模型属于“基于记忆”的非参数局部模型,这种模型并不是立即利用训练数据建立模型,数据也不再被函数和参数所替代。在对测试样例进行类别预测的时候,找出和其距离最接近的个样例,以其中数量最多的类别作为该样例的类预测结果。 最 阅读全文
posted @ 2019-05-18 16:31 hgz_dm 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 在《分类:基于规则的分类技术》中已经比较详细的介绍了基于规则的分类方法,RIPPER算法则是其中一种具体构造基于规则的分类器的方法。在RIPPER算法中,有几个点是算法的重要构成部分,需要强调一下 规则排序方式 RIPPER算法中采用的仍然是基于类的规则排序方式,不过独特的地方是,它先将各个类按频率 阅读全文
posted @ 2019-05-18 16:29 hgz_dm 阅读(3866) 评论(0) 推荐(0) 编辑
摘要: 最近又遇到了t分布及t检验方面的内容,发现有些地方自己当初没有很明白,就又查了些资料,加深了一下自己的理解,这里也将自己的一些理解记录下来。 1. 理论基础——大数定理与中心极限定理 在正式介绍t分布前,还是再强调一下数理统计学中的两大基石般的定理:大数定理与中心极限定理,后面会用到。这里我就不以数 阅读全文
posted @ 2019-05-18 16:26 hgz_dm 阅读(15384) 评论(4) 推荐(2) 编辑
摘要: 探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在上世纪70年代由美国统计学家J.K.Tukey提出。传统的统计分析方法常常先假设数据符合一种统计模型 阅读全文
posted @ 2019-05-18 16:24 hgz_dm 阅读(3426) 评论(0) 推荐(0) 编辑