Fork me on GitHub
摘要: 1. 概述 YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源; YARN 由ResourceManager,NodeManager, ApplicationMaster 和 Container 等组件构成; 2. YARN 工作机制 2.1 资源调度器 Hadoop 作业调度器主要有三 阅读全文
posted @ 2019-05-31 21:12 小a的软件思考 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 1. Reduce Join工作原理 Map端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 2. Map Join 使用场景:适用于一张表十分小,一张表很大的场景; 在 Map 端缓存多 阅读全文
posted @ 2019-05-31 20:53 小a的软件思考 阅读(372) 评论(0) 推荐(0) 编辑
摘要: 1. 概述 Map 方法之后,Reduce 方法之前的数据处理过程称之为 Shuffle。 2. Partition 分区 需求:要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地,不同省份输出到不同文件中(分区)。 2.1 自定义 Partitioner 步骤 2.2 阅读全文
posted @ 2019-05-31 20:19 小a的软件思考 阅读(491) 评论(0) 推荐(0) 编辑