摘要:
Kafka分区策略 ##Kafka 为什么要分区? 方便在集群中扩展,每个Partition可以通过调整以适应它所在的机器,而一个topic又可以有多个Partition组成,因此整个集群就可以适应任意大小的数据了。 可以提高并发,因为可以以Partition为单位读写。 生产者分区策略 将生产者产 阅读全文
摘要:
Kafka基础架构 Kafka架构中涉及到 Kafka集群(多个Broker)、 生产者(生产消息) 、 消费者(消费消息) 、 zookeeper(注册消息) Kafka集群 Kafka集群由多个broker组成,每个broker都有唯一的id。 Kafka内部维护Topics,每个topic可以 阅读全文
摘要:
Kafka概述 Kafka是一个基于发布、订阅的分布式消息队列,用于大数据离线、实时处理。 什么是消息中间件? 生产者消费者模式的消息队列 分布式消息是一种通信机制,与RPC、HTTP、RMI不同,消息中间件采用终极按代理的方式进行通信。在系统中添加了消息中间件以后,上游系统直接将生产的消息发送到消 阅读全文
摘要:
HadoopHA 关于HA 由于集群中只有一个NN和RM,无法保证该节点不挂掉,所以单节点存在安全问题。 HadoopHA主要是为了消除单点故障,我要在集群中启动备用的NN,RM。 HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 HA采用paxos协议,要求必须搭建在奇数台 阅读全文
摘要:
Zookeeper Zookeeper = 文件系统 + 通知机制 作为一个开源分布式的存储中间件,用来存储各个客户端都关心的数据,并采用观察者设计模式,当观察者触发了节点指定的事件,服务端就会通知客户端,客户端可以执行回调方法执行对应的操作。 Zookeeper的每个存储基本单位为znode,所有 阅读全文
摘要:
Yarn的架构 ResourceManager:是yarn的老大,主要负责整个yarn的资源调度与分配。 处理客户端的任务请求。 监控NodeManager。 启动或监控ApplicationMaster。 负责资源的分配与调度。 NodeManager:是单个节点的管理者,主要负责单个节点上的资源 阅读全文