Hadoop-MapReducer学习 - L先森请坐下 - 博客园

Hadoop-MapReducer学习

一、InputFormat

1.默认的是`TextInputFormat`，`key`偏移量，`value`一行内容。

2.处理小文件`CombineTextInputFormat`把多个文件合并到一起统一切片。

二、Mapper

`setup()`初始化；`map()`用户的业务逻辑；`clearup()`关闭资源

三、分区

1.默认分区`HashPartitioner`，默认按照`key`的`hash值%numreducertask的个数`

2.自定义分区

四、排序

1.部分排序：每个输出的文件内部有序。

2.全排序：一个`reducer`，对所有数据大排序。

3.二次排序：自定义排序范畴，实现`writableCompare`接口，重写`compareTo`方法（总流量排序按照上行流量正序）

五、Combiner

1.前提：不影响最终的业务逻辑（求和）

2.提前聚合map => 解决数据倾斜的一种方法

六、Reducer

1.用户的业务逻辑

2.`setup()`初始化；`reducer()`用户的业务逻辑；`clearup()`关闭资源

七、OutputFormat

1.默认`TextOutputFormat`按行输出到文件

2.自定义

posted on 2022-08-31 19:02 L先森请坐下阅读(21) 评论(0) 编辑收藏举报

刷新页面返回顶部

导航

公告