2020 年 7月 4 日随笔档案 - 地中有山

2020年7月4日

摘要：一 Reduce Join 表1：订单表数据。字段为订单编号、品牌id、购买数量。 1001 01 1 1002 02 2 1003 03 3 1004 01 4 1005 02 5 1006 03 6 表2：品牌信息表。字段为品牌id，品牌名称。 01 小米 02 华为 03 格力需求：将表1中阅读全文

posted @ 2020-07-04 22:20 地中有山阅读(230) 评论(0) 推荐(0) 编辑

Kafka 架构

摘要： 1）Producer：消息生产者，就是向kafkabroker发消息的客户端；2）Consumer：消息消费者，向kafkabroker取消息的客户端；3）ConsumerGroup（CG）：消费者组，由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个组内消费阅读全文

posted @ 2020-07-04 17:44 地中有山阅读(227) 评论(0) 推荐(0) 编辑

Zookeeper 选举机制

摘要： 1）半数机制：集群中半数以上机器存活，集群可用。所以Zookeeper适合安装奇数台服务器。2）Zookeeper虽然在配置文件中并没有指定Master和Slave。但是，Zookeeper工作时，是有一个节点为Leader，其他则为Follower，Leader是通过内部的选举机制临时产生的。3）阅读全文

posted @ 2020-07-04 15:52 地中有山阅读(231) 评论(0) 推荐(0) 编辑

Hadoop Yarn任务调度器

摘要：目前，Hadoop作业调度器主要有三种：FIFO、Capacity Scheduler和Fair Scheduler。Hadoop2.7.2默认的资源调度器是Capacity Scheduler。具体设置详见：yarn-default.xml文件 <property> <description>T 阅读全文

posted @ 2020-07-04 14:30 地中有山阅读(259) 评论(0) 推荐(0) 编辑

Hadoop Yarn工作机制 Job提交流程

摘要：（1）MR程序提交到客户端所在的节点。（2）YarnRunner向ResourceManager申请一个Application。（3）RM将该应用程序的资源路径返回给YarnRunner。（4）该程序将运行所需资源提交到HDFS上。（5）程序资源提交完毕后，申请运行mrAppMaster。（6）RM 阅读全文

posted @ 2020-07-04 14:08 地中有山阅读(413) 评论(0) 推荐(0) 编辑

Hadoop 切片机制

摘要：切片机制源码： ①for (FileStatus file: files) 每个文件单独切片。 ②long length = file.getLen() 获取文件大小。 ③while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) SPLIT_S 阅读全文

posted @ 2020-07-04 11:27 地中有山阅读(651) 评论(0) 推荐(0) 编辑

IT备忘录

述而不作，信而好谷

公告