摘要: 本文是对《IPython Interactive Computing and Visualization Cookbook》一书中第七章【Introduction to statistical data analysis in Python – frequentist and Bayesian methods】的简单翻译和整理,这部分内容主要将对统计学习中的频率论方法和贝叶斯统计方法进行介绍。 本文将介绍如何洞察现实世界的数据,以及如何在存在不确定性的情况下做出明智的决定。 统计数据分析的目的是通过一部分不确定的观测现象了解一个复杂的,真实世界。数据的不确定性导致了我们获得的关于现象知识的不确定。该理论的一个主要目标是量化这种不确定性。 阅读全文
posted @ 2014-12-09 19:50 ChaoSimple 阅读(11869) 评论(0) 推荐(2) 编辑
摘要: Mahalanobis距离是用来度量一个点P和一个分布D之间的距离,它是衡量点P与分布D的均值之间存在多少个标准差的一个多维泛化版本。 如果P就位于分布D的均值处,则该距离为0;该距离随着P的偏离均值开始逐步增大。 阅读全文
posted @ 2014-12-09 14:19 ChaoSimple 阅读(8508) 评论(2) 推荐(1) 编辑
摘要: What is the difference between categorical, ordinal and interval variables? In talking about variables, sometimes you hear variables being described as categorical (or sometimes nominal), or ordinal, or interval. Below we will define these terms and explain why they are important. 阅读全文
posted @ 2014-12-09 14:17 ChaoSimple 阅读(1810) 评论(0) 推荐(0) 编辑
摘要: 标准化(Z-Score),或者去除均值和方差缩放 公式为:(X-mean)/std 计算时对每个属性/每列分别进行。 将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。 实现时,有两种不同的方式: 阅读全文
posted @ 2014-12-09 14:14 ChaoSimple 阅读(308127) 评论(9) 推荐(25) 编辑
摘要: 在sklearn的preprocessing包中包含了对数据集中缺失值的处理,主要是应用Imputer类进行处理。 首先需要说明的是,numpy的数组中可以使用np.nan/np.NaN(Not A Number)来代替缺失值,对于数组中是否存在nan可以使用np.isnan()来判定。 使用type(np.nan)或者type(np.NaN)可以发现改值其实属于float类型,代码如下: 阅读全文
posted @ 2014-12-09 14:12 ChaoSimple 阅读(31390) 评论(1) 推荐(2) 编辑
摘要: 本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译,原文在这里。这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook 。习惯上,我们会按下面格式引入所需要的包: 一、 创建对象 可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息... 阅读全文
posted @ 2014-12-09 13:46 ChaoSimple 阅读(622807) 评论(18) 推荐(34) 编辑