摘要: ## 1 创建版本库 ### 1.1 初始化 初始化一个Git仓库,使用 git init 命令。 添加文件到Git仓库,分两步: + 第一步,使用命令` git add ` ,注意,可反复多次使用,添加多个文件; + 第二步,使用命令` git commit -m "xxx"` ,完成。 阅读全文
posted @ 2015-08-14 10:47 ChaoSimple 阅读(923) 评论(0) 推荐(1) 编辑
摘要: VirtualEnv可以方便的解决不同项目中对类库的依赖问题。这通常是通过以下方式实现的:首先将常用的类库安装在系统环境中;然后为每个项目安装独立的类库环境。这样子可以保证每个项目都运行在独立的类库环境中。 本文简要的介绍如何方便的在Windows环境下使用VirtualEnv进行开发工作。 阅读全文
posted @ 2015-05-04 13:20 ChaoSimple 阅读(42110) 评论(4) 推荐(8) 编辑
摘要: 本文是对《IPython Interactive Computing and Visualization Cookbook》一书中第七章【Introduction to statistical data analysis in Python – frequentist and Bayesian methods】的简单翻译和整理,这部分内容主要将对统计学习中的频率论方法和贝叶斯统计方法进行介绍。 本文将介绍如何洞察现实世界的数据,以及如何在存在不确定性的情况下做出明智的决定。 统计数据分析的目的是通过一部分不确定的观测现象了解一个复杂的,真实世界。数据的不确定性导致了我们获得的关于现象知识的不确定。该理论的一个主要目标是量化这种不确定性。 阅读全文
posted @ 2014-12-09 19:50 ChaoSimple 阅读(11868) 评论(0) 推荐(2) 编辑
摘要: Mahalanobis距离是用来度量一个点P和一个分布D之间的距离,它是衡量点P与分布D的均值之间存在多少个标准差的一个多维泛化版本。 如果P就位于分布D的均值处,则该距离为0;该距离随着P的偏离均值开始逐步增大。 阅读全文
posted @ 2014-12-09 14:19 ChaoSimple 阅读(8508) 评论(2) 推荐(1) 编辑
摘要: What is the difference between categorical, ordinal and interval variables? In talking about variables, sometimes you hear variables being described as categorical (or sometimes nominal), or ordinal, or interval. Below we will define these terms and explain why they are important. 阅读全文
posted @ 2014-12-09 14:17 ChaoSimple 阅读(1810) 评论(0) 推荐(0) 编辑
摘要: 标准化(Z-Score),或者去除均值和方差缩放 公式为:(X-mean)/std 计算时对每个属性/每列分别进行。 将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。 实现时,有两种不同的方式: 阅读全文
posted @ 2014-12-09 14:14 ChaoSimple 阅读(308126) 评论(9) 推荐(25) 编辑
摘要: 在sklearn的preprocessing包中包含了对数据集中缺失值的处理,主要是应用Imputer类进行处理。 首先需要说明的是,numpy的数组中可以使用np.nan/np.NaN(Not A Number)来代替缺失值,对于数组中是否存在nan可以使用np.isnan()来判定。 使用type(np.nan)或者type(np.NaN)可以发现改值其实属于float类型,代码如下: 阅读全文
posted @ 2014-12-09 14:12 ChaoSimple 阅读(31389) 评论(1) 推荐(2) 编辑
摘要: 本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译,原文在这里。这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook 。习惯上,我们会按下面格式引入所需要的包: 一、 创建对象 可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息... 阅读全文
posted @ 2014-12-09 13:46 ChaoSimple 阅读(622805) 评论(18) 推荐(34) 编辑
摘要: KDD Cup '99 数据集存在一些问题,作者提议相关会议和杂志的peer reviewer谨慎考虑(甚至是拒绝)仅由此数据得出的结论. 阅读全文
posted @ 2014-11-29 09:57 ChaoSimple 阅读(2893) 评论(0) 推荐(0) 编辑
摘要: 描述了使用pyInstaller打包使用jieba分词的文件时出现的一种错误,分析了导致该错误的原因,最后给出了解决方案。 阅读全文
posted @ 2014-11-16 17:22 ChaoSimple 阅读(3030) 评论(0) 推荐(0) 编辑