摘要:     (三)Streaming快速编程 1. mapper.py 2. reduce.py (四)准备文件     1. 准备好本地文件     2. 将本地文件student.dat与course.dat 上传到云梯目录 (五)设置Streaming参数并执行 (六)最后的输出:为了便于查看,你 阅读全文
posted @ 2016-03-14 22:34 开心玩数据 阅读(1695) 评论(0) 推荐(0) 编辑
摘要: Streaming是Hadoop提供的一个可以使用其他编程语言来进行MR编程的API,它使用Unix标准输入输出作为Hadoop和其他编程语言的开发接口,非常轻便。而开发者可以选择自己擅长的编程语言,并且只需要在MR程序中实现计算逻辑后,指定输出即可。     Python可以通过Streaming 阅读全文
posted @ 2016-03-14 22:33 开心玩数据 阅读(1627) 评论(0) 推荐(0) 编辑
摘要: 提到性能,最容易想到的是降低复杂度,一般可以通过测量代码回路复杂度(cyclomatic complexitly)和Landau符号(大O)来分析, 比如dict查找是O(1),而列表的查找却是O(n),显然数据的存储方式选择会直接影响算法的复杂度。      1. 在列表中查找:    对于已经排 阅读全文
posted @ 2016-03-14 22:22 开心玩数据 阅读(412) 评论(0) 推荐(0) 编辑
摘要: 1、基本概念        模拟退火算法(Simulated Annealing,SA)是一种模拟固体降温过程的最优化算法。其模拟的过程是首先将固体加温至某一温度,固体内部的粒子随温度上升慢慢变为无序的状态,内能增大,然后让其慢慢冷却,温度下降时,内部的粒子慢慢趋于有序,达到一种平衡态,最后达到常温 阅读全文
posted @ 2016-03-14 21:42 开心玩数据 阅读(9280) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2016-03-14 21:35 开心玩数据 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 一 如何使用形式化语法来描述无限的句子集合的结构?    --上下位无关文法   阅读全文
posted @ 2016-03-14 21:30 开心玩数据 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 统计建模非常像工程学。 在工程学中,有多种构建键-值存储系统的方式,每个设计都会构造一组不同的关于使用模式的假设集合。在统计建模中,有很多分类器构建算法,每个算法构造一组不同的关于数据的假设集合。 当处理少量数据时,尝试尽可能多的算法,然后挑选最好的一个的做法是比较合理的,因为此时实验成本很低。但当 阅读全文
posted @ 2016-03-14 21:28 开心玩数据 阅读(290) 评论(0) 推荐(0) 编辑
摘要:  gensim是python下一个极易上手的主题模型程序库(topic model),网址在:http://radimrehurek.com/gensim/index.html   安装过程较为繁琐,参考http://radimrehurek.com/gensim/install.html 中的步骤 阅读全文
posted @ 2016-03-14 21:22 开心玩数据 阅读(1237) 评论(0) 推荐(0) 编辑
摘要: ![enter image description here][1]例子:涉及一个特征器,给定一个姓名分析出是男性名字还是女性名字 分析:男性和女性的名字有一些鲜明的特点。以a,e 和i 结尾的很可能是女性,而以k,o,r,s 结尾的很可能是男性。让我们建立一个分类器更精确地模拟这些差异。 ![en 阅读全文
posted @ 2016-03-14 21:20 开心玩数据 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 此处使用的统计分析方法为美国统计学家Frank Wilcoxon所提出的非参数方法,称为Wilcoxon符号秩 (signed-rank)检验,当数据中仅有单一组样本时,可用这种方法检验数据的中位数是否大于、小于或等于某一特定数值。当你的样本数较大时(通常样本个数≧30的样本可视为样本数较大),建议 阅读全文
posted @ 2016-03-14 21:12 开心玩数据 阅读(9679) 评论(0) 推荐(0) 编辑
摘要: 描述性统计包含多种基本描述统计量,让用户对于数据结构可以有一个初步的认识。在此所提供之统计量包含: 用户可选择多个变量同时进行计算,亦可选择分组变量进行多组别的统计量计算。 例如: 中位数描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据的一半。对于对称分布的数据,均值与中位数比较 阅读全文
posted @ 2016-03-14 21:07 开心玩数据 阅读(22768) 评论(0) 推荐(0) 编辑
摘要: t检验,又称学生t(student t)检验,是由英国统计学家戈斯特(William Sealy Gosset, 1876-1937)所提出,student则是他的笔名。t检验是一种检验总体均值的统计方法,当数据中仅含单组样本且样本数较大时(通常样本个数≧30的样本可视为样本数较大),可用这种方法来 阅读全文
posted @ 2016-03-14 21:06 开心玩数据 阅读(10762) 评论(0) 推荐(0) 编辑
摘要: 网络,数学上称为图,最早研究始于1736年欧拉的哥尼斯堡七桥问题,但是之后关于图的研究发展缓慢,直到1936年,才有了第一本关于图论研究的著作。20世纪60年代,两位匈牙利数学家Erdos和Renyi建立了随机图理论,被公认为是在数学上开创了复杂网络理论的系统性研究。之后的40年里,人们一直讲随机图 阅读全文
posted @ 2016-03-14 21:03 开心玩数据 阅读(27184) 评论(1) 推荐(2) 编辑
摘要: 1,text1.concordance("monstrous")      用语索引 阅读全文
posted @ 2016-03-14 21:01 开心玩数据 阅读(2847) 评论(0) 推荐(0) 编辑