摘要:
1 下载 ZK wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.7/zookeeper-3.4.7.tar.gz 2 解压 tar -zxvf zookeeper-3.4.7.tar.gz 3 修改配置文件 cp zoo_sa 阅读全文
摘要:
<!--more--> 此处是hadoop 2.7.2以前 Hadoop 预留的一个 HDFS 文件系统的接口。 可以通过修改这里 将数据源的读取改为 Swift。 也可以通过修改 MR 源码 将数据抽取部分变换成 Swift。 注: 写错了 少了个A 应该是: Sahara。 推荐用 Sahara 阅读全文
摘要:
简单4个分区。 package com.rocky.mr.partition;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;import com.rocky.util.TimeUtils;import org.apache.hadoop.conf.Configurable;import org.apa... 阅读全文
摘要:
计数器模式讲解: 先讲一下,就是说只用 Map 阶段 不需要 Reduce 。 也就是说去掉了中间输出,而是Map 直接输出结果。大大提高了 MR 的效率且节省了 MR 中间输出读入的 IO 。Hadoop 框架支持 在 MR 结束时,只需要简单的获取框架的计数器信息并将结果写入到任意地方。 包括日志、本地文件系统、HDFS 等。 Hadoop 框架中内置了一些计数... 阅读全文
摘要:
1 Storm 分布式计算结构称为 Topology (拓扑) Topology 由 stream(数据流)。spout(数据流的生成者)。bolt(运算)组成。 1.1 stream Strom 核心数据结构是 tuple。 tuple/英译 元组,重数/ 1.2 spout ... 阅读全文
摘要:
可以借用 SQL 的连接来解释假设 表A、表B内连接: A.name = B.name 保存共有的相同值属性外连接: 左外连接: 以 外键表A(左)属性为基准。 包含A 属性整列。B属性符合A属性值的存入,其余B属性被置为 null。 右外连接: 以 外键表B(右)属性为基准。 包含B 属性整列。B属性符合A属性值的存入,... 阅读全文
摘要:
前面讲的 分区、分箱模式 都是不关心数据的顺序。 接下来 全排序、混排序模式 关心的是数据按照指定键进行并行排序。全排序解释; 排序在顺序结构程序中容易实现, 但是在MapReduce 中,或者说在并行编程中不易实现。这是典型的 “分治法”。 每个 reduce 将按照键对他的数据排序,但这种排序并不是全局意义上的排序。 这里想做的是全排序,记录是整个数据集按照顺序排列好的。作用: ... 阅读全文
摘要:
分箱目的: 将数据集中的每条记录都归档到一个 或 多个文件中。分箱与分区: 分享模式与分区模式很类似。 主要区别在于 分箱使用 Map 构建 而 分区需要用到 MapReduce 进行分区。 分箱好处是减少 reduce 阶段的工作量结构: Map阶段重写 setup方法。使用了 MultipleOutput 类, 通过该类将作业输出到多个不... 阅读全文
摘要:
分区模式是将记录进行分类(即分片、分区或分箱),他不关心记录的顺序 目的: 将数据集中相似的数据记录成不同的、更小的数据。 适用范围: 必须提前知道有多少个分区。 比如按天、按月、年等等。 结构: 数据是通过分区器进行分区的。 所以需要自定义分区器(partitioner)函数来确定每条记录应该被分在那... 阅读全文
摘要:
数据组织模式 是通过分区、分片、排序等方式将个别记录的价值突显出来。 分布式系统是可以通过分、分片及排序方式优化性能。 分层结构模式 分层结构模式是从数据中创造出不同与原有结构的新记录。 当从 RDBMS 中将数据迁移至 hadoop 系统时,首先考虑将数据重新格式化成对计算更为有利的结构。 案例: 一个网站上的帖吧结构。 从R... 阅读全文