摘要:
mapreduce 全局变量共享 在编写MapReduce程序时,经常会遇到这样的问题,全局变量如何保存?如何让每个处理都能获取保存的这些全局变量?使用全局变量是不可避免的,但是 在MapRdeuce中直接使用代码级别的全局变量是不现实的。主要是因为继承Mapper基类的Map阶段类的运行和继承Re 阅读全文
摘要:
一、mapreduce多job串联 1、需求 一个稍复杂点的处理逻辑往往需要多个 mapreduce 程序串联处理,多 job 的串联可以借助 mapreduce 框架的 JobControl 实现 2、实例 以下有两个 MapReduce 任务,分别是 Flow 的 SumMR 和 SortMR, 阅读全文
摘要:
m apreduce三大组件:Combiner\Sort\Partitioner 默认组件:排序,分区(不设置,系统有默认值) 一、mapreduce中的Combiner 1、什么是combiner Combiner 是 MapReduce 程序中 Mapper 和 Reducer 之外的一种组件, 阅读全文
摘要:
MapReduce 程序的业务编码分为两个大部分,一部分配置程序的运行信息,一部分 编写该 MapReduce 程序的业务逻辑,并且业务逻辑的 map 阶段和 reduce 阶段的代码分别继 承 Mapper 类和 Reducer 类 1、mapreduce单词统计实例 reduce 二、mapre 阅读全文
摘要:
1、实时处理框架 即从上面的架构中我们可以看出,其由下面的几部分构成: Flume集群 Kafka集群 Storm集群 从构建实时处理系统的角度出发,我们需要做的是,如何让数据在各个不同的集群系统之间打通(从上面的图示中也能很好地说明这一点),即需要做各个系统之前的整合,包括Flume与Kafka的 阅读全文
摘要:
数据分析一般分为两种,一种是在线一种是离线 流程: 一般都是对于日志文件的采集和分析 场景实例(某个电商网站产生的用户访问日志(access.log)进行离线处理与分析的过程) 1、需求: 基于MapReduce的处理方式,最后会统计出某一天不同省份访问该网站的uv与pv(pv就是点击量,uv是独立 阅读全文
摘要:
可一直不明白docker是什么,然后看了这篇文章(尾部链接),瞬间清醒了许多 1、简单介绍: 简单的说 docker类似于虚拟机,但是它更小,更轻便,更能适应单个应用(为其量身定做),一个机器上可以运行多个虚拟机,每个虚拟机都可以有不同的环境,都可以运行不同的应用,一个机器上可以运行多个docker 阅读全文
摘要:
安装搭建: 1)解压下载的flume(安装jdk1.6及其以上) 2)在conf文件夹里面建立example.conf文件 3)启动flume 4)新建窗口运行 5)在该窗口输入,另一个窗口会输出记录 flume对接不同的数据源 1、Avro Source 监听AVRO端口来接受来自外部AVRO客户 阅读全文