2018 年 5月 10 日随笔档案 - 子墨言良

2018年5月10日

摘要：默认情况下，Map 输出的结果会对 Key 进行默认的排序，但是有时候需要对 Key 排序的同时再对 Value 进行排序，这时候就要用到二次排序了。下面让我们来介绍一下什么是二次排序。二次排序原理我们把二次排序主要分为以下几个阶段。 Map 起始阶段在Map阶段，使用 job.setInpu 阅读全文

posted @ 2018-05-10 16:39 子墨言良阅读(1719) 评论(6) 推荐(0) 编辑

Hadoop实战：reduce端实现Join

摘要：项目描述现在假设有两个数据集：气象站数据库和天气记录数据库，并考虑如何合二为一。一个典型的查询是：输出气象站的历史信息，同时各行记录也包含气象站的元数据信息。气象站和天气记录合并之后的示意图如下所示。测试数据启动Hadoop集群，然后在hdfs中创建join文件夹用于存放测试数据statio 阅读全文

posted @ 2018-05-10 10:15 子墨言良阅读(505) 评论(0) 推荐(0) 编辑

子墨言良

公告