摘要: 在日常维护hadoop集群的过程中发现这样一种情况: 某个节点由于网络故障或者DataNode进程死亡,被NameNode判定为死亡, HDFS马上自动开始数据块的容错拷贝; 当该节点重新添加到集群中时,由于该节点上的数据其实并没有损坏, 所以造成了HDFS上某些block的备份数超过了设定的备份数。 通过观察发现,这些多余的数据块经过很长的一段时间才会被... 阅读全文
posted @ 2017-11-24 20:07 ぶ会编程 阅读(600) 评论(0) 推荐(0)
摘要: datanode进程死亡或者网络故障造成datanode无法与namenode通信, namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。 HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为: timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heart... 阅读全文
posted @ 2017-11-24 20:04 ぶ会编程 阅读(1083) 评论(0) 推荐(0)
摘要: 脑裂:本来一个大脑的两半球互相配合,变成了分裂成两个独立的大脑,都认为对方已死。在集群环境中,有这么几种可能造成"Split-Brain"现象: 1、在集群环境中的节点间的心跳线同时断掉后,集群系统所处于的一种特殊状态。例如节点1和2组成一个集群,突然1和2间的心跳同时都断了,如果此前节点1正在运行 阅读全文
posted @ 2017-11-24 19:40 ぶ会编程 阅读(853) 评论(0) 推荐(0)