摘要: HBase - Hadoop Database ,是一个高可靠性、高性能、面向列、可伸缩、 可 实时读写的 分布式数据库 , 利用 Hadoop HDFS 作为其文件存储系统 , 利用 Hadoop MapReduce 来处理 HBase 中的海量数据 , 利用 Zookeeper 作为其分布式协同 阅读全文
posted @ 2018-04-17 10:08 高登军 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 它出现在Hadoop1.x版本中,又称辅助NameNode,在Hadoop2.x以后的版本中此角色消失。如果充当datanode节点的一台机器宕机或者损害,其数据不会丢失,因为备份数据还存在于其他的datanode中。但是,如果充当namenode节点的机器宕机或损害导致文件系统无法使用,那么文件系 阅读全文
posted @ 2018-04-17 09:50 高登军 阅读(2257) 评论(0) 推荐(0) 编辑
摘要: HDFS client首先会与NameNode交互元数据信息,然后NameNode制定策略,分配NameNode节点,客户端先会与离自己最近的DataNode进行socket连接,已经与DataNode建立连接的节点再与剩余节点之间进行连接构成pipeline,请注意,由于客户端只有一块网卡, HD 阅读全文
posted @ 2018-04-17 09:47 高登军 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 客户端先与NameNode通信,获取block位置信息,之后线性地先取第一个块,然后接二连三地获取,取回一个块时会进行MD5验证,验证通过后会使read顺利进行完,当最终读完所有的block块之后,拼起来就是一个完整的源文件,数据本地化读取是分布式计算中计算向数据移动的一大特征,block块有偏移量 阅读全文
posted @ 2018-04-17 09:45 高登军 阅读(334) 评论(0) 推荐(0) 编辑