逆水行舟,不进则退

纸上得来终觉浅,绝知此事要躬行
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2014年10月7日

摘要: Hadoop 2.x 版本比起之前的版本在Hadoop和MapReduce上做了许多变化,主要的变化之一,是JobTracker被ResourceManager和ApplicationManager所替代。这种架构上的改变使得hadoop可以扩展到更大规模的集群上。本篇文章用于介绍如何在单节点上安装... 阅读全文

posted @ 2014-10-07 11:38 Jonee 阅读(904) 评论(0) 推荐(0) 编辑

2014年4月7日

摘要: 下载数据分析招聘信息.pdf数据分析招聘网招聘信息分析报告.pdf 阅读全文

posted @ 2014-04-07 21:47 Jonee 阅读(298) 评论(0) 推荐(0) 编辑

2014年2月11日

该文被密码保护。 阅读全文

posted @ 2014-02-11 19:00 Jonee 阅读(14) 评论(0) 推荐(0) 编辑

2014年1月20日

摘要: 有一个数据集如下所示:如果直接进行转置。SAS程序:proc transpose data=test out=outx1 (drop=_name_); by id; var amount; id sasdate; idl... 阅读全文

posted @ 2014-01-20 21:54 Jonee 阅读(1193) 评论(0) 推荐(0) 编辑

2014年1月4日

摘要: 饼图一直都是最基本同时也是最常用的几种图形之一,一般用来反映总体中各部分占比情况。一般做饼图的话都是用EXCEL来完成(其实EXCEL+水晶易表就可以做出大部分常用的图表了)。而本文是借助SAS来完成,加了点新意在里面。地球上有七大洲四大洋(网上有种说法是五大洋,第五个是南极洋,感觉不明觉厉),陆地表面积占比大概在29%,海洋表面积占比大概71%。就以这些表面积数据来画饼图,但以地球作为背景。同时因为若将七个大洲分开来计算,则其单个的面积都比较小,所以就将七大洲的面积合起来作为陆地面积,与四大洋的面积一块来做饼图。SAS程序:结果1(png格式):结果2(htm格式):无法上传,略过。BUG之 阅读全文

posted @ 2014-01-04 16:44 Jonee 阅读(643) 评论(0) 推荐(0) 编辑

2013年12月26日

摘要: 分析过程中需要用到的R包:Rweibo、Rwordseg(或者rsmartcn)、wordcloud。根据个人情况,下载了以下搜狗细胞词库:“统计学名词”、“数学词汇大全”、“机器学习”、“财经金融词汇大全”、“互联网词库(2006版)”、“哈工大停用词表扩展”1、加载Rweibo包,进行授权申请。... 阅读全文

posted @ 2013-12-26 15:22 Jonee 阅读(1477) 评论(2) 推荐(1) 编辑

2013年12月17日

摘要: 所用数据来自于之前的一篇博客:《QQ群成员发言次数统计(正则表达式版)》链接:http://www.cnblogs.com/liyongzhao/p/3324026.html1、首先导出数据到Y盘,存为demo.csvSAS程序如下:proc export data=rtf outfile="Y:\demo.csv" dbms=csv replace; putnames=yes;run;2、将数据读入RR程序如下:demo<-data.frame(read.csv("Y:\\demo.csv",header=T))3、制作词云R程序如下(只分析发言 阅读全文

posted @ 2013-12-17 18:45 Jonee 阅读(1986) 评论(0) 推荐(1) 编辑

2013年12月9日

摘要: SAS中的许多过程步都是封装好的,而且SAS的编程特点决定了只能是DATA步执行完之后再执行PROC步,或者PROC步执行完之后再执行DATA步。因此有时候DATA步只能利用PROC步执行完之后的结果。有时候这会带来一些不便。虽然有Call Execute例程,但该例程却是在DATA步执行完之后才能执行例程里面的代码。无法做到DATA步中的PROC步执行完之后才去执行DATA步内的其他代码。本文的目的就是简单介绍一种如何在DATA步中真正的执行PROC步的方法。程序如下(需求是取某个数据集中某个变量的所有可能取值(去重)):/*定义准备执行PROC步的宏*/%macro distinct_va 阅读全文

posted @ 2013-12-09 21:10 Jonee 阅读(2832) 评论(0) 推荐(0) 编辑

2013年12月8日

摘要: 一、利用R进行关联规则挖掘数据结构如下:(共9个itemsets,5个items)首先读入数据:demodata = read.transactions("C:\\Documents and Settings\\Administrator\\桌面\\DemoData.csv", rm.duplicates= TRUE, format="basket",sep=",",cols =c(1))查看数据:inspect(demodata)或者:summary(demodata)加载arules包library(arules)先求频繁项集(建 阅读全文

posted @ 2013-12-08 22:36 Jonee 阅读(1020) 评论(0) 推荐(0) 编辑

2013年11月29日

摘要: 取统计时间区间内一天24个小时时间段的平均在线人数来作图。数据如下:程序如下:%let name=game;FILENAME file "Y:\"; data demo; input ID time $ value col$ @@; col="CX"||col; value=val... 阅读全文

posted @ 2013-11-29 19:36 Jonee 阅读(908) 评论(0) 推荐(0) 编辑