apple飘98

2015年2月12日

摘要：理论上，回归分析是在目标变量为连续型数据的情况下建模的，它不能处理目标变量为分类型数据的情况。而logic回归分析的思路是把分类变量（“是否开通VIP”）转化为连续变量（“开通VIP的概率”），进而使用回归分析的方法间接地研究分类分析的问题。一、原理假设vip变量为分类变量，其取值只有0和1，这是分... 阅读全文

posted @ 2015-02-12 17:04 apple飘98 阅读(5156) 评论(0) 推荐(0)

2015年2月6日

R语言之简单回归分析

摘要：数据指标建模指的是，使用若干自变量并建立公式，以预测目标变量。如果研究的目标变量是连续型的，则称其为回归分析；如果是分类型，则称其为分类分析。一、一元线性回归分析data.lm0.64 高度相关2、修正相关系数r^2，消除自变量数的影响Adjusted R-squared获取：summary(dat... 阅读全文

posted @ 2015-02-06 18:33 apple飘98 阅读(1620) 评论(0) 推荐(0)

检测数据是否符合正态分布（R语言）

摘要： norm.testalpha){ print(paste("success:服从正态分布,p.value=",sol$p.value,">",alpha)) }else{ print(paste("error:不服从正态分布,p.value=",sol$p... 阅读全文

posted @ 2015-02-06 17:34 apple飘98 阅读(10670) 评论(0) 推荐(0)

2015年1月29日

【转】用python写MapReduce函数——以WordCount为例

摘要：本例中直接用python写一个MapReduce实例：统计输入文件的单词的词频使用python写MapReduce的“诀窍”是利用Hadoop流的API，通过STDIN(标准输入)、STDOUT(标准输出)在Map函数和Reduce函数之间传递数据。我们唯一需要做的是利用Python的sys.std... 阅读全文

posted @ 2015-01-29 20:20 apple飘98 阅读(184) 评论(0) 推荐(0)

2015年1月28日

HIVE—数据倾斜

摘要：数据倾斜：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大，通常可能达到3倍甚至更多。最长时长远大于平均时长。解决数据倾斜，归根结底是使map的... 阅读全文

posted @ 2015-01-28 15:15 apple飘98 阅读(478) 评论(0) 推荐(0)

2015年1月4日

【转】linux awk命令

摘要：简介awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。它允许创建简短的程序，这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及... 阅读全文

posted @ 2015-01-04 20:45 apple飘98 阅读(202) 评论(0) 推荐(0)

2014年12月31日

linux sed命令

摘要：简介sed 是一种在线编辑器，它一次处理一行内容，可以将数据行进行替换、删除、新增、选取等特定工作。sed使用参数[root@www ~]# sed [-nefr] [动作]选项与参数：-n ：使用安静(silent)模式。在一般 sed 的用法中，所有来自 STDIN 的数据一般都会被列出到终端上... 阅读全文

posted @ 2014-12-31 16:44 apple飘98 阅读(308) 评论(0) 推荐(0)

linux grep命令

摘要：简介grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep常用用法[root@www ~]# grep ... 阅读全文

posted @ 2014-12-31 12:35 apple飘98 阅读(202) 评论(0) 推荐(0)

公告