摘要: 理论上,回归分析是在目标变量为连续型数据的情况下建模的,它不能处理目标变量为分类型数据的情况。而logic回归分析的思路是把分类变量(“是否开通VIP”)转化为连续变量(“开通VIP的概率”),进而使用回归分析的方法间接地研究分类分析的问题。一、原理假设vip变量为分类变量,其取值只有0和1,这是分... 阅读全文
posted @ 2015-02-12 17:04 apple飘98 阅读(5037) 评论(0) 推荐(0) 编辑
摘要: 数据指标建模指的是,使用若干自变量并建立公式,以预测目标变量。如果研究的目标变量是连续型的,则称其为回归分析;如果是分类型,则称其为分类分析。一、一元线性回归分析data.lm0.64 高度相关2、修正相关系数r^2,消除自变量数的影响Adjusted R-squared获取:summary(dat... 阅读全文
posted @ 2015-02-06 18:33 apple飘98 阅读(1570) 评论(0) 推荐(0) 编辑
摘要: norm.testalpha){ print(paste("success:服从正态分布,p.value=",sol$p.value,">",alpha)) }else{ print(paste("error:不服从正态分布,p.value=",sol$p... 阅读全文
posted @ 2015-02-06 17:34 apple飘98 阅读(10541) 评论(0) 推荐(0) 编辑
摘要: 本例中直接用python写一个MapReduce实例:统计输入文件的单词的词频使用python写MapReduce的“诀窍”是利用Hadoop流的API,通过STDIN(标准输入)、STDOUT(标准输出)在Map函数和Reduce函数之间传递数据。我们唯一需要做的是利用Python的sys.std... 阅读全文
posted @ 2015-01-29 20:20 apple飘98 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 数据倾斜:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大,通常可能达到3倍甚至更多。 最长时长远大于平均时长。解决数据倾斜,归根结底是使map的... 阅读全文
posted @ 2015-01-28 15:15 apple飘98 阅读(448) 评论(0) 推荐(0) 编辑
摘要: 简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。它允许创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及... 阅读全文
posted @ 2015-01-04 20:45 apple飘98 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 简介sed 是一种在线编辑器,它一次处理一行内容,可以将数据行进行替换、删除、新增、选取等特定工作。sed使用参数[root@www ~]# sed [-nefr] [动作]选项与参数:-n :使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN 的数据一般都会被列出到终端上... 阅读全文
posted @ 2014-12-31 16:44 apple飘98 阅读(300) 评论(0) 推荐(0) 编辑
摘要: 简介grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。grep常用用法[root@www ~]# grep ... 阅读全文
posted @ 2014-12-31 12:35 apple飘98 阅读(192) 评论(0) 推荐(0) 编辑