摘要: 一 Reduce Join 表1:订单表数据。字段为订单编号、品牌id、购买数量。 1001 01 1 1002 02 2 1003 03 3 1004 01 4 1005 02 5 1006 03 6 表2:品牌信息表。字段为品牌id,品牌名称。 01 小米 02 华为 03 格力 需求:将表1中 阅读全文
posted @ 2020-07-04 22:20 地中有山 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 1)Producer:消息生产者,就是向kafkabroker发消息的客户端;2)Consumer:消息消费者,向kafkabroker取消息的客户端;3)ConsumerGroup(CG):消费者组,由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个组内消费 阅读全文
posted @ 2020-07-04 17:44 地中有山 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 1)半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。2)Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。3) 阅读全文
posted @ 2020-07-04 15:52 地中有山 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 目前,Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler。Hadoop2.7.2默认的资源调度器是Capacity Scheduler。 具体设置详见:yarn-default.xml文件 <property> <description>T 阅读全文
posted @ 2020-07-04 14:30 地中有山 阅读(259) 评论(0) 推荐(0) 编辑
摘要: (1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManager申请一个Application。(3)RM将该应用程序的资源路径返回给YarnRunner。(4)该程序将运行所需资源提交到HDFS上。(5)程序资源提交完毕后,申请运行mrAppMaster。(6)RM 阅读全文
posted @ 2020-07-04 14:08 地中有山 阅读(413) 评论(0) 推荐(0) 编辑
摘要: 切片机制源码: ①for (FileStatus file: files) 每个文件单独切片。 ②long length = file.getLen() 获取文件大小。 ③while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) SPLIT_S 阅读全文
posted @ 2020-07-04 11:27 地中有山 阅读(651) 评论(0) 推荐(0) 编辑