摘要: 数据清洗(ETL) ETL(Extract抽取-Transform转换-Load加载)用来描述数据从来源端经过抽取、转换、加载至目的端的过程。一般用于数据仓库,但其对象并不限于数据仓库 在运行核心业务MapReduce程序之前,往往需要对数据进行清洗,清理掉不符合用户要求的数据,清理的过程往往只需要 阅读全文
posted @ 2021-09-03 11:21 rananie 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 1 Join多种应用 1.1 Reduce Join Map 端的主要工作:不同表或文件的 key/value 对, 打标签以区别不同来源的记录。然后用连接字段作为 key,其余部分和新加的标志作为 value,最后进行输出。 Reduce 端的主要工作:在 Reduce 端以连接字段作为 key 阅读全文
posted @ 2021-09-03 10:23 rananie 阅读(58) 评论(0) 推荐(0) 编辑