随笔分类 -  数据清洗、建模、可视化

摘要:sklearn.tree.DecisionTreeClassifier()函数用于构建决策树,默认使用CART算法,现对该函数参数进行说明,参考的是scikit-learn 0.20.3版本。 sklearn.tree.DecisionTreeClassifier(criterion=’gini’, 阅读全文
posted @ 2019-05-18 17:06 hgz_dm 阅读(10776) 评论(0) 推荐(0) 编辑
摘要:平时会用到sklearn.neighbors.NNeighborsClassifier函数来构建K最邻近分类器,所以这里对NNeighborsClassifier中的参数进行说明,文中参考的是scikit-learn 0.20.3版本。 NNeighborsClassifier函数中参数如下: n_ 阅读全文
posted @ 2019-05-18 17:05 hgz_dm 阅读(516) 评论(0) 推荐(0) 编辑
摘要:散点图可以显示观察数据的分布,描述数据的相关性,matlibplot也可以绘制散点图,不过我一般优先使用seaborn库的sctterplot()绘制,下面就介绍一下如何用seaborn.scatterplot()绘制散点图。 1. sctterplot()参数说明 x,y:输入的绘图数据,必须是数 阅读全文
posted @ 2019-05-18 17:03 hgz_dm 阅读(16543) 评论(0) 推荐(0) 编辑
摘要:之前在一些数据分析案例中看到用 Go 语言绘制的雷达图,非常的漂亮,就想着用matlibplot.pyplot也照着画一个,遗憾的是matlibplot.pyplot模块中没有直接绘制雷达图的函数,不过可以基于‘polar’图形特征来改进,下面就记录一下如何绘制雷达图。 import numpy a 阅读全文
posted @ 2019-05-18 17:01 hgz_dm 阅读(1774) 评论(0) 推荐(0) 编辑
摘要:柱状图用于反映数值变量的集中趋势,用误差线估计变量的差值统计。理解误差线有助于我们准确的获取柱状图反映的信息,因此打算先介绍一下误差线方面的内容,然后介绍一下利用seaborn库绘制柱状图。 1.误差线的理解 误差线源于统计学,表示数据误差(或不确定性)范围,以更准确的方式呈现数据。当label上有 阅读全文
posted @ 2019-05-18 16:55 hgz_dm 阅读(18625) 评论(0) 推荐(0) 编辑
摘要:可视化是数据探索性分析及结果表达的一种非常重要的形式,因此打算写一个python绘图系列,本文是第一篇,先说一下pandas.DataFrame.plot()绘图功能。 pandas.DataFrame.plot() 在0.23.4版本的pandas中,pandas.DataFrame.plot() 阅读全文
posted @ 2019-05-18 16:53 hgz_dm 阅读(4189) 评论(0) 推荐(0) 编辑
摘要:探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在上世纪70年代由美国统计学家J.K.Tukey提出。传统的统计分析方法常常先假设数据符合一种统计模型 阅读全文
posted @ 2019-05-18 16:24 hgz_dm 阅读(3453) 评论(0) 推荐(0) 编辑
摘要:数据预处理过程会占用很多时间,虽然麻烦但也是必不可少且非常重要的一步。在数据能用于计算的前提下,我们希望数据预处理过程能够提升分析结果的准确性、缩短计算过程,这是数据预处理的目的。本文只说明这些预处理方法的用途及实施的过程,并不涉及编程方面内容,预处理的过程可以用各种各样的语言编程实现来实现。我个人 阅读全文
posted @ 2019-05-18 16:22 hgz_dm 阅读(801) 评论(0) 推荐(0) 编辑
摘要:(自己的认知与理解有限,文中错误、不当之处还请诸位不吝指出,大家共同进步) 数据是重要、应该被充分利用的,这一点大家都是认同的,就像我们的个人信息(尤其是手机号)被肆意的售卖,各种推销、诈骗电话屡见不鲜,虽然我们对此大为光火,但是对推销员和诈骗犯来说,人家确实利用到了数据,而且总能钓上几条鱼。作为一 阅读全文
posted @ 2019-05-18 16:17 hgz_dm 阅读(328) 评论(0) 推荐(0) 编辑
摘要:这篇文章中主要记录如何分析样本间相似性的内容,相似性分析在分类算法(如K最邻近分类)和聚类任务中会涉及到。相似性分析基于样本属性取值,因此对于样本属性类型及其取值的特征也有必要说明。 1.数据测量及属性分类 测量某个对象得到数据的过程实质上是描述该对象的属性(特征)、并将该属性映射到某个值上,在这些 阅读全文
posted @ 2019-05-18 16:13 hgz_dm 阅读(1247) 评论(0) 推荐(0) 编辑
摘要:在数据挖掘过程中,当一个对象有多个属性(即该对象的测量过程产生多个变量)时,会产生高维度数据,这给数据挖掘工作带来了难度,我们希望用较少的变量来描述数据的绝大多数信息,此时一个比较好的方法是先对数据进行降维处理。数据降维过程不是简单提取部分变量进行分析,这样的方式法当然会降低数据维度,但是这是非常不 阅读全文
posted @ 2019-01-19 18:51 hgz_dm 阅读(538) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示