每日日报2021 10/6

今天做一个hadoop的操作实例。可能会做三四天。

WritableComparable 排序案例实操（全排序）

1）需求

根据案例 2.3 序列化案例产生的结果再次对总流量进行倒序排序。

（1）输入数据

原始数据第一次处理后的数据

phone_data .txt

part-r-00000

（

2）期望输出数据

排序分类

（1）部分排序

MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部有序。

（2）全排序

最终输出结果只有一个文件，且文件内部有序。实现方式是只设置一个ReduceTask。但该方法在

处理大型文件时效率极低，因为一台机器处理所有文件，完全丧失了MapReduce所提供的并行架构。

（3）辅助排序：（GroupingComparator分组）

在Reduce端对key进行分组。应用于：在接收的key为bean对象时，想让一个或几个字段相同（全部

字段比较不相同）的key进入到同一个reduce方法时，可以采用分组排序。

（4）二次排序

在自定义排序过程中，如果compareTo中的判断条件为两个即为二次排序。尚硅谷大数据技术之 Hadoop（MapReduce

）

13509468723 7335

110349 117684

13736230513 2481

24681

27162

13956435636 132

1512

1644

13846544121 264

264

posted @ 2021-10-06 19:34 宋振兴阅读(37) 评论(0) 编辑收藏举报

刷新页面返回顶部

宋振兴