上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 28 下一页
摘要: 在真实的世界中,缺失数据是经常出现的,并可能对分析的结果造成影响。在R中,经常使用VIM(Visualization and Imputation of Missing values)包来对缺失值进行可视化和插补。在使用VIM绘图时,有些绘图函数会对缺失值会自动进行插补。 缺失数据的分类: MCAR 阅读全文
posted @ 2018-09-19 11:28 悦光阴 阅读(7845) 评论(0) 推荐(1) 编辑
摘要: 列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数分布表,它是由两个以上的变量进行交叉分类的频数分布表。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。 按两个变量交叉分类的,该列联表称为两维列联表;若按3个变量交叉分类,所得的列联表称为3维列联表,依次类推。一 阅读全文
posted @ 2018-09-19 10:21 悦光阴 阅读(24943) 评论(2) 推荐(1) 编辑
摘要: 贝叶斯公式:事件Bi的概率为P(Bi),在事件Bi发生条件下事件A发生的概率为P(A│Bi),在事件A发生条件下事件Bi发生的的概率为P(Bi│A)。 贝叶斯公式也称作逆全概率公式,我对贝叶斯概率公式的理解: 根据之前的经验,确定事件A是由事件B触发的,事件B有一个划分:B1、B2、...、Bn,每 阅读全文
posted @ 2018-09-18 17:16 悦光阴 阅读(2767) 评论(0) 推荐(0) 编辑
摘要: 令狐冲在华山学艺时,虽然勤学苦练,但是终不得法,在机缘巧合之下,得到风清扬老前辈的真传,练成独孤九剑之后,才名震江湖。虽然笑傲江湖的故事情节是虚构的,但从令狐冲蜕变的过程可以看出,练武需要秘籍。数据分析也有一本传世秘籍,只有六字,这就是《数据化管理》中提到的六字箴言、数据分析的三板斧:对比、细分、溯 阅读全文
posted @ 2018-09-18 14:11 悦光阴 阅读(2839) 评论(2) 推荐(5) 编辑
摘要: 数据分析离不开对关键指标的跟踪,指标是衡量事物好坏的一个指数。数据指标有很多,然而,并不是所有的指标都是好的,虚荣指标(Vanity Metrics)看上去很美,让你感觉良好,但这类指标说到底是肤浅的,甚至带有欺诈性,例如,你会关注网站的访问量,但却忽略了跳离率、用户的浏览时间等,这很容易让你掉进虚 阅读全文
posted @ 2018-09-05 10:40 悦光阴 阅读(2845) 评论(0) 推荐(4) 编辑
摘要: 数据分析,先有数据,而后有分析,认识数据是分析数据的前提。在现实世界中,数据一般都是有缺失的、异构的、有量纲的。认识数据,不仅要了解数据的属性(维)、类型和量纲,还要了解数据的分布特性。洞察数据的特征,检验数据的质量,有助于后续的分析工作,否则,没有可信的数据,数据分析的结果将是空中楼阁。 一,检验 阅读全文
posted @ 2018-09-03 10:10 悦光阴 阅读(3454) 评论(4) 推荐(4) 编辑
摘要: 在实际的聚类应用中,通常使用k-均值和k-中心化算法来进行聚类分析,这两种算法都需要输入簇数,为了保证聚类的质量,应该首先确定最佳的簇数,并使用轮廓系数来评估聚类的结果。 一,k-均值法确定最佳的簇数 通常情况下,使用肘方法(elbow)以确定聚类的最佳的簇数,肘方法之所以是有效的,是基于以下观察: 阅读全文
posted @ 2018-08-25 15:18 悦光阴 阅读(27970) 评论(2) 推荐(4) 编辑
摘要: 聚类分析根据对象之间的相异程度,把对象分成多个簇,簇是数据对象的集合,聚类分析使得同一个簇中的对象相似,而与其他簇中的对象相异。相似性和相异性(dissimilarity)是根据数据对象的属性值评估的,通常涉及到距离度量。相似性(similarity)和相异性(dissimilarity)是负相关的 阅读全文
posted @ 2018-08-24 09:56 悦光阴 阅读(9322) 评论(1) 推荐(4) 编辑
摘要: 聚类是把一个数据集划分成多个子集的过程,每一个子集称作一个簇(Cluster),聚类使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似,由聚类分析产生的簇的集合称作一个聚类。在相同的数据集上,不同的聚类算法可能产生不同的聚类。 聚类分析用于洞察数据的分布,观察每个簇的特征,进一步分析特定簇的 阅读全文
posted @ 2018-08-23 12:09 悦光阴 阅读(16679) 评论(0) 推荐(2) 编辑
摘要: 在数据质量得到保证的前提下,通过绘制图表、计算某些统计量等手段对数据的分布特征和贡献度进行分析(帕累托分析),分布分析能够揭示数据的分布特征和分布类型,对于定量数据,可以做出频率分布表、绘制频率分布直方图显示分布特征;对于定性数据,可用饼图和条形图显示分布情况。帕累托分析在频率分布直方图的基础上,绘 阅读全文
posted @ 2018-08-20 14:20 悦光阴 阅读(8816) 评论(0) 推荐(2) 编辑
摘要: 对于成功的数据分析而言,把握数据整体的性质是至关重要的,使用统计量来检查数据特征,主要是检查数据的集中程度、离散程度和分布形状,通过这些统计量可以识别数据集整体上的一些重要性质,对后续的数据分析,有很大的参考作用。 一,基本统计量 用于描述数据的基本统计量主要分为三类,分别是中心趋势统计量、散布程度 阅读全文
posted @ 2018-08-17 11:32 悦光阴 阅读(17944) 评论(1) 推荐(0) 编辑
摘要: scipy包提供了几种通用的插补工具,分别用于1维,2维或高维的数据集,分别是: 类 interp1d 用于对一维数据进行插补 类 griddata 提供了对1D,2D和高维数据进行插补的工具。 spline插补, 用于对一维和二维数据进行平滑的cubic-spline 插补 使用基于径向的函数(R 阅读全文
posted @ 2018-08-14 10:32 悦光阴 阅读(2878) 评论(0) 推荐(0) 编辑
摘要: 绘制散点图(scatterplots)使用geom_point()函数,气泡图(bubblechart)也是一个散点图,只不过点的大小由一个变量(size)来控制。散点图潜在的最大问题是过度绘图:当一个位置或相邻的位置上出现有多个点,就可能把点绘制在彼此之上, 这会严重扭曲散点图的视觉外观,你可以通 阅读全文
posted @ 2018-08-13 12:53 悦光阴 阅读(19464) 评论(0) 推荐(0) 编辑
摘要: 数据质量通常是指数据值的质量,包括准确性、完整性和一致性。数据的准确性是指数据不包含错误或异常值、完整性是指数据不包含缺失值、一致性是数据在各个数据源中都是相同的。广义的数据质量还包括数据整体的有效性,例如,数据整体是否是可信的、数据的取样是否合理等。本文的数据质量分析,是指对原始数据值的质量进行分 阅读全文
posted @ 2018-08-10 10:26 悦光阴 阅读(12509) 评论(1) 推荐(0) 编辑
摘要: 数据标准化处理是数据分析的一项基础工作,不同评价指标往往具有不同的量纲,数据之间的差别可能很大,不进行处理会影响到数据分析的结果。为了消除指标之间的量纲和取值范围差异对数据分析结果的影响,需要对数据进行标准化处理,就是说,把数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。 在继续下文 阅读全文
posted @ 2018-08-09 17:02 悦光阴 阅读(40312) 评论(0) 推荐(2) 编辑
摘要: geom_bar()函数不仅可以绘制条形图,还能绘制饼图,跟绘制条形图的区别是坐标系不同,绘制饼图使用的坐标系polar,并且设置theta="y": 条形图的高度通常表示两种情况之一:每组中的数据的个数,或数据框中列的值,高度表示的含义是由geom_bar()函数的参数stat决定的,stat在g 阅读全文
posted @ 2018-08-06 09:47 悦光阴 阅读(23450) 评论(0) 推荐(1) 编辑
摘要: 线图是由折线构成的图形,线图是把散点从左向右用直线连接起来而构成的图形,在以时间序列为x轴的线图中,可以看到数据增长的趋势。 线图中的常用参数: group:线的分组 alpha:线的透明度 color:线的颜色 size:线的粗细 linetype:线的类型,R中可用的类型如下图所示: 使用以下数 阅读全文
posted @ 2018-08-04 09:49 悦光阴 阅读(44907) 评论(0) 推荐(0) 编辑
摘要: ggplot2包中绘制点图的函数有两个:geom_point和 geom_dotplot,当使用geom_dotplot绘图时,point的形状是dot,不能改变点的形状,因此,geom_dotplot 叫做散点图(Scatter Plot),通过绘制点来呈现数据的分布,对点分箱的方法有两种:点密度 阅读全文
posted @ 2018-08-03 14:52 悦光阴 阅读(48205) 评论(0) 推荐(0) 编辑
摘要: 箱线图通过绘制观测数据的五数总括,即最小值、下四分位数、中位数、上四分位数以及最大值,描述了变量值的分布情况。箱线图能够显示出离群点(outlier),离群点也叫做异常值,通过箱线图能够很容易识别出数据中的异常值。 箱线图提供了识别异常值的一个标准: 异常值通常被定义为小于 QL - l.5 IQR 阅读全文
posted @ 2018-08-02 20:01 悦光阴 阅读(69402) 评论(0) 推荐(3) 编辑
摘要: Git 基本操作系列博客: Git 第一篇:简单介绍 Git 第二篇:基本操作 Git 第三篇:VS Code使用Git管理代码 Git 第四篇:使用VS2013和git进行代码管理 Git是一个开源的分布式版本控制系统,分布式相比集中式的最大区别是Git没有“中央版本库”,每一位开发者都可以通过克 阅读全文
posted @ 2018-07-20 11:41 悦光阴 阅读(2201) 评论(0) 推荐(0) 编辑
上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 28 下一页