学习MapReduce编程场景(一)
摘要:最近因为找工作的原因,都有两个周没有写博客了。今天来学习一个MapReduce编程场景。 这是一个处理基站数据的场景。基站数据被抽象成两个文件,分别是以“NET”开头和“POS”开头的文件。一个是记录用户的移动位置,另一个是记录用户的上网数据。任务是从大量的这些数据中提取出用户的移动轨迹,...
阅读全文
posted @
2015-03-15 15:39
Uber
阅读(1397)
推荐(2) 编辑
Storm集群的DRPC模式
摘要:storm的DRPC模式的作用是实现从远程调用storm集群的计算资源,而不需要连接到集群的某一个节点。OK。那么storm实现DRPC主要是使用LinearDRPCTopologyBuilder这个类。下面就先来看看一个简单的例子,它的源码的github上。import backtype.st...
阅读全文
posted @
2015-03-07 17:22
Uber
阅读(5554)
推荐(0) 编辑
HBase完全分布式安装以及Hive远程模式(mysql作为数据库)的安装
摘要:各位真的不好意思。上次的博文有误。上次的应该是HBase的伪分布式安装。这次本人保证是完全分布式安装。 首先是HBase的完成分布式安装。这次部署的环境是hadoop-1.2.1+hbase-0.98.X。因为这个版本的HBase是直接对应hadoop-1.2.1,故也就省去了覆盖jar包...
阅读全文
posted @
2015-03-05 12:06
Uber
阅读(2130)
推荐(1) 编辑
Data Collection with Apache Flume(三)
摘要:最后提及两个agent。首先第一个是使用一个avro souce和一个avro sink向另一个agent传递event,然后再写入特定目录。 先看看配置代码。 agent6.sources = avrosource //定义avrosource,可以使用avro client在网络上向其传...
阅读全文
posted @
2015-03-02 10:51
Uber
阅读(730)
推荐(0) 编辑
Data Collection with Apache Flume(二)
摘要:今天继续讨论几个agent的配置。 第一个agent是从终端捕获特定命令执行的输出结果,并将文件输出到特定目录。先看一下配置的代码: agent2.sources = execsource //指定为从命令获取输出的sourceagent2.sinks = filesink ...
阅读全文
posted @
2015-03-01 12:38
Uber
阅读(778)
推荐(0) 编辑