hbase或hadoop错误及解决方法
hadoop和hbase都差不多是第一次使用,所以在整个过程中难免遇到各种问题。我把我遇到过的所有解决了的错误,全部在这,遇到问题的增多文章再逐步增加。在hadoop和hbase使用过程中,日志分析是必不可少的一部分,对解决问题相当关键。
1、PC之间时间不同步(hbase)
FATAL org.apache.hadoop.hbase.regionserver.HRegionServer: Master rejected startup because clock is out of sync org.apache.hadoop.hbase.ClockOutOfSyncException: org.apache.hadoop.hbase.ClockOutOfSyncException: Server suc-pc,60020,1363269953286 has been rejected; Reported time is too far out of sync with master. Time difference of 39375ms > max allowed of 30000ms
小问题,一看就知道错误发生在哪。在hbase中,允许小的时间偏差,但是上面39秒的时间偏差就有点大了。如果你是联网的话,可以用ntpdate 219.158.14.130进行同步。219.158.14.130是网通北京的时间服务器,如果不行你可以用别的服务器进行同步。
2、zookeeper服务器未设置或者/etc/hosts设置有误(hbase)
2013-03-11 19:41:08,263 INFO org.apache.zookeeper.ClientCnxn: Opening socket connection to server localhost/127.0.0.1:2181. Will not attempt to authenticate using SASL (unknown error) 2013-03-11 19:41:08,266 WARN org.apache.zookeeper.ClientCnxn: Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect java.net.ConnectException: 拒绝连接 at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method) at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:692) at org.apache.zookeeper.ClientCnxnSocketNIO.doTransport(ClientCnxnSocketNIO.java:350) at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1068)
这个问题的出现,会伴随一个非常奇怪的现象。在master所在的pc上启动start-all时,内容提示所有的regionserver已经全部启动。但是,如果你去查看masterIP:60010时会发现其他的regionserver并没有启动,regionserver的数量只有一台。因为已经有一台regionserver是活着的,所以hbase还是能继续使用的,这会迷惑你。查看别的机器的日志后,你就会发现上述错误。zookeeper的定位居然定位到127.0.0.1去了,这个不科学。最后,查阅资料才发现hbase.zookeeper.quorum这个属性设置时,默认本机即为zookeeper服务器(单机使用)。这就很简单了,只需要增加这个属性就可以了。
<property> <name>hbase.zookeeper.quorum</name> <value>10.82.58.213</value> </property>
同时,也发现如果/etc/hosts设置错误也会发生类似问题。/etc/hosts中,localhost和本机PC名都需要为127.0.0.1,因为本机PC名默认是127.0.1.1。