2020年4月10日
摘要: 1.计数器应用 hadoop为每个作业维护若干个内置计数器,以描述多项指标;例如:某些计数器记录已处理的字节数和记录数,使用户可监控已经处理的输入数据量和已产生的输出数据量; 1.1 计数器API 1.1.1 采用枚举的方式统计计数 enumMyCounter(MALFORORMED,NORMAL) 阅读全文
posted @ 2020-04-10 10:40 wnwn 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 1.Reduce Join 1.1 工作原理 map端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同的来源记录;然后用连接字段作为key,其余部分和新加的标志作为是value,最后进行输出; reduce端的主要工作:在reduce端以连接字段作为key的分组已经完成,我们只 阅读全文
posted @ 2020-04-10 09:36 wnwn 阅读(263) 评论(0) 推荐(0) 编辑