2018 年 4月 17 日随笔档案 - 高登军

2018年4月17日

摘要： HBase - Hadoop Database ，是一个高可靠性、高性能、面向列、可伸缩、可实时读写的分布式数据库，利用 Hadoop HDFS 作为其文件存储系统，利用 Hadoop MapReduce 来处理 HBase 中的海量数据，利用 Zookeeper 作为其分布式协同阅读全文

posted @ 2018-04-17 10:08 高登军阅读(337) 评论(0) 推荐(0) 编辑

HDFS-SecondaryNameNode（SNN）角色介绍

摘要：它出现在Hadoop1.x版本中，又称辅助NameNode，在Hadoop2.x以后的版本中此角色消失。如果充当datanode节点的一台机器宕机或者损害，其数据不会丢失，因为备份数据还存在于其他的datanode中。但是，如果充当namenode节点的机器宕机或损害导致文件系统无法使用，那么文件系阅读全文

posted @ 2018-04-17 09:50 高登军阅读(2281) 评论(0) 推荐(0) 编辑

HDFS写流程

摘要： HDFS client首先会与NameNode交互元数据信息，然后NameNode制定策略，分配NameNode节点，客户端先会与离自己最近的DataNode进行socket连接，已经与DataNode建立连接的节点再与剩余节点之间进行连接构成pipeline，请注意，由于客户端只有一块网卡， HD 阅读全文

posted @ 2018-04-17 09:47 高登军阅读(138) 评论(0) 推荐(0) 编辑

HDFS读流程

摘要：客户端先与NameNode通信，获取block位置信息，之后线性地先取第一个块，然后接二连三地获取，取回一个块时会进行MD5验证，验证通过后会使read顺利进行完，当最终读完所有的block块之后，拼起来就是一个完整的源文件，数据本地化读取是分布式计算中计算向数据移动的一大特征，block块有偏移量阅读全文

posted @ 2018-04-17 09:45 高登军阅读(337) 评论(0) 推荐(0) 编辑

高登军

公告