摘要:
默认情况下,Map 输出的结果会对 Key 进行默认的排序,但是有时候需要对 Key 排序的同时再对 Value 进行排序,这时候就要用到二次排序了。下面让我们来介绍一下什么是二次排序。 二次排序原理 我们把二次排序主要分为以下几个阶段。 Map 起始阶段 在Map阶段,使用 job.setInpu 阅读全文
摘要:
项目描述 现在假设有两个数据集:气象站数据库和天气记录数据库,并考虑如何合二为一。一个典型的查询是:输出气象站的历史信息,同时各行记录也包含气象站的元数据信息。 气象站和天气记录合并之后的示意图如下所示。 测试数据 启动Hadoop集群,然后在hdfs中创建join文件夹用于存放测试数据statio 阅读全文