hbase regionserver IO问题

regionserver日志：

java.io.IOException: Connection reset by peer

at sun.nio.ch.FileDispatcherImpl.read0(Native Method)

at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39)

at sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:218)

at sun.nio.ch.IOUtil.read(IOUtil.java:191)

at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:359)

2013-01-21 15:42:09,881 WARN org.apache.hadoop.ipc.HBaseServer: IPC Server listener on 60020: readAndProcess threw exception java.io.IOException: Connection reset by peer. Count of bytes read: 0

java.io.IOException: Connection reset by peer

at sun.nio.ch.FileDispatcherImpl.read0(Native Method)

at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39)

at sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:218)

at sun.nio.ch.IOUtil.read(IOUtil.java:191)

at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:359)

at org.apache.hadoop.hbase.ipc.HBaseServer.channelRead(HBaseServer.java:1698)

at org.apache.hadoop.hbase.ipc.HBaseServer$Connection.readAndProcess(HBaseServer.java:1136)

at org.apache.hadoop.hbase.ipc.HBaseServer$Listener.doRead(HBaseServer.java:719)

at org.apache.hadoop.hbase.ipc.HBaseServer$Listener$Reader.doRunLoop(HBaseServer.java:511)

at org.apache.hadoop.hbase.ipc.HBaseServer$Listener$Reader.run(HBaseServer.java:486)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603)

at java.lang.Thread.run(Thread.java:722)

2013-01-21 15:42:13,690 WARN org.apache.hadoop.ipc.HBaseServer: IPC Server listener on 60020: readAndProcess threw exception java.io.IOException: Connection reset by peer. Count of bytes read: 0

java.io.IOException: Connection reset by peer

hbase客户端每次和regionserver交互的时候，都会在服务器端生成一个租约（Lease),租约的有效期由参数hbase.regionserver.lease.period确定。

客户端去regionserver取数据的时候，hbase中存得数据量很大并且很多region的时候的，客户端请求的region不在内存中，或是没有被cache住，需要从磁盘中加载，如果这时候加载需要的时间超过hbase.regionserver.lease.period所配置的时间，并且客户端没有和 regionserver报告其还活着，那么regionserver就会认为本次租约已经过期，并从LeaseQueue从删除掉本次租约，当 regionserver加载完成后，拿已经被删除的租约再去取数据的时候，就会出现如上的错误现象。

解决的办法：

1、适当的增大 hbase.regionserver.lease.period参数的值，默认是1分钟

2、增大regionserver的cache大小

hbase.regionserver.lease.period

regionserer租约时间，默认值是60s，也有点小，如果你的生产环境中，在执行一些任务时，如mapred时出现lease超时的报错，那这个时候就需要去调大这个值了

hfile.block.cache.size

regionserver cache的大小，默认是0.2，是整个堆内存的多少比例作为regionserver的cache，调大该值会提升查询性能，当然也不能过大，如果你的 hbase都大量的查询，写入不是很多的话，调到0.5也就够了，说到这个值，有一个地方需要说明一下，如果生产环境有mapred任务去scan hbase的时候，一些要在mapred scan类中加一个scan.setCacheBlocks(false)，避免由于mapred使用regionserver的cache都被替换，造成hbase的查询性能明显下降

posted @ 2014-04-12 18:21 喵尾景虎阅读(2025) 评论(0) 收藏举报

喵尾景虎

hbase regionserver IO问题

公告