随笔 - 20  文章 - 0  评论 - 3  阅读 - 29740
03 2015 档案
学习MapReduce编程场景(一)
摘要:最近因为找工作的原因,都有两个周没有写博客了。今天来学习一个MapReduce编程场景。 这是一个处理基站数据的场景。基站数据被抽象成两个文件,分别是以“NET”开头和“POS”开头的文件。一个是记录用户的移动位置,另一个是记录用户的上网数据。任务是从大量的这些数据中提取出用户的移动轨迹,... 阅读全文
posted @ 2015-03-15 15:39 Uber 阅读(1397) 评论(1) 推荐(2) 编辑
Storm集群的DRPC模式
摘要:storm的DRPC模式的作用是实现从远程调用storm集群的计算资源,而不需要连接到集群的某一个节点。OK。那么storm实现DRPC主要是使用LinearDRPCTopologyBuilder这个类。下面就先来看看一个简单的例子,它的源码的github上。import backtype.st... 阅读全文
posted @ 2015-03-07 17:22 Uber 阅读(5554) 评论(0) 推荐(0) 编辑
HBase完全分布式安装以及Hive远程模式(mysql作为数据库)的安装
摘要:各位真的不好意思。上次的博文有误。上次的应该是HBase的伪分布式安装。这次本人保证是完全分布式安装。 首先是HBase的完成分布式安装。这次部署的环境是hadoop-1.2.1+hbase-0.98.X。因为这个版本的HBase是直接对应hadoop-1.2.1,故也就省去了覆盖jar包... 阅读全文
posted @ 2015-03-05 12:06 Uber 阅读(2130) 评论(0) 推荐(1) 编辑
Data Collection with Apache Flume(三)
摘要:最后提及两个agent。首先第一个是使用一个avro souce和一个avro sink向另一个agent传递event,然后再写入特定目录。 先看看配置代码。 agent6.sources = avrosource //定义avrosource,可以使用avro client在网络上向其传... 阅读全文
posted @ 2015-03-02 10:51 Uber 阅读(730) 评论(0) 推荐(0) 编辑
Data Collection with Apache Flume(二)
摘要:今天继续讨论几个agent的配置。 第一个agent是从终端捕获特定命令执行的输出结果,并将文件输出到特定目录。先看一下配置的代码: agent2.sources = execsource //指定为从命令获取输出的sourceagent2.sinks = filesink ... 阅读全文
posted @ 2015-03-01 12:38 Uber 阅读(778) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示