摘要: 1. 服务器节点距离计算 A. 网络拓扑-节点距离计算 在HDFS写数据的过程中,NameNode会选择距离带上传数据最近距离的DataNode接收数据。 节点距离:两个节点到达最近的共同祖先的距离总和 2. 机架感知 A. 副本节点选择 a. 第一个副本在Client所处的节点上。如果客户端在集群 阅读全文
posted @ 2021-06-03 14:41 shangzq 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 1. HDFS的写流程 A. 简单流程描述 a. 客户端发起Create File,目的是获取HDFS文件的输出流。 b. namenode收到请求后。namenode收到请求后会检测权限,以及路径的合法性。 c. 如果检测都通过,namenode会为这个文件生成块的元数据信息,比如①为文件切块②分 阅读全文
posted @ 2021-06-03 09:51 shangzq 阅读(215) 评论(0) 推荐(0) 编辑
摘要: 1. HDFS文件块大小 HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数dfs.blocksize来规定,默认大小在Hadoop2.x/3.x版本中是128M,Hadoop 1.x中是64M 2. 文件块大小的决定因素 HDFS块的大小设置主要取决于磁盘传输速率。 寻址时 阅读全文
posted @ 2021-06-02 22:29 shangzq 阅读(700) 评论(0) 推荐(0) 编辑
摘要: 1. HDFS组成架构 A. NameNode 简称nn,就是Master,它是一个主管、管理者 a. 管理整个分布式文件系统的元数据信息(管理HDFS的名称空间、配置副本策略、管理数据块映射) b. 处理客户端读写请求 c. 通过RPC心跳机制来检测datanode节点的状态信息 B. DataN 阅读全文
posted @ 2021-06-02 21:35 shangzq 阅读(66) 评论(0) 推荐(0) 编辑
摘要: 1. HDFS产出背景及定义 A. HDFS产生背景 需要一种系统来管理多台机器上的文件,HDFS只是分布式文件管理系统中的一种 B. HDFS定义 a. HDFS是一个文件系统, b. 其次它是分布式的 c. HDFS的使用场景:适合一次写入,多次读出的场景 2. HDFS优点 A. 高容错性 a 阅读全文
posted @ 2021-06-02 20:52 shangzq 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 1. 什么是Hadoop A. 定义 Hadoop是一个由Apache基金会所开发的分布式基础架构 B. 两个作用 a. 海量数据的存储 b. 海量数据的计算 C. 其它 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈 2. Hadoop的发展历史 A. 创始人 Doug C 阅读全文
posted @ 2021-06-02 10:50 shangzq 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 1. 简单流程概述 A. 流程描述 a. producer先从zookeeper的"/brokers/.../state"节点找到该partition的leader b. producer将消息发送给该leader c. leader将消息写入到本地的log d. follower从leader拉取 阅读全文
posted @ 2021-01-23 15:22 shangzq 阅读(1725) 评论(0) 推荐(2) 编辑
摘要: 1. Hive架构组成 Hive的架构组成,包括三部分Hive Client、Hive Service、Hive Storage and Computing A. Hive Client,Hive的客户端 针对不同的应用程序提供了不同的驱动,例如像是 a. JDBC驱动 b. ODBC驱动 c. T 阅读全文
posted @ 2021-01-18 14:07 shangzq 阅读(968) 评论(1) 推荐(1) 编辑
摘要: 1. Kafka拓扑结构图 2. 角色说明 A. producer 消息生产者,发布消息到kafka 集群的终端或服务 B. broker 节点,kafka 集群中包含的服务器 C. topic 主题,每条发布到kafka 集群的消息属于的类别。生产者向Kafka中生产消息或消费者从消费者中消费消息 阅读全文
posted @ 2021-01-16 17:23 shangzq 阅读(149) 评论(0) 推荐(1) 编辑
摘要: 1. Kafka的定义 A. 定义 Kafka是一个分布式的基于发布/订阅模式的消息队列,主要用户大数据实时处理领域。 2. 消息队列 A. 消息队列的模式 a. 点对点模式(一对一) 消费者主动拉取数据,消息收到后消息被清除。队列支持多个消费者,但是对于一个消息而言只能被一个消费者消费。 b. 基 阅读全文
posted @ 2021-01-16 16:25 shangzq 阅读(188) 评论(0) 推荐(1) 编辑