摘要: 默认情况下,Map 输出的结果会对 Key 进行默认的排序,但是有时候需要对 Key 排序的同时再对 Value 进行排序,这时候就要用到二次排序了。下面让我们来介绍一下什么是二次排序。 二次排序原理 我们把二次排序主要分为以下几个阶段。 Map 起始阶段 在Map阶段,使用 job.setInpu 阅读全文
posted @ 2018-05-10 16:39 子墨言良 阅读(1719) 评论(6) 推荐(0) 编辑
摘要: 项目描述 现在假设有两个数据集:气象站数据库和天气记录数据库,并考虑如何合二为一。一个典型的查询是:输出气象站的历史信息,同时各行记录也包含气象站的元数据信息。 气象站和天气记录合并之后的示意图如下所示。 测试数据 启动Hadoop集群,然后在hdfs中创建join文件夹用于存放测试数据statio 阅读全文
posted @ 2018-05-10 10:15 子墨言良 阅读(505) 评论(0) 推荐(0) 编辑