线上问题备忘录

1. flume-cluster

编号	描述	现象	方法
1	flume启动时元数据锁异常，导致无法启动	Due to java.io.IOException: Cannot lock /filechannel/. The directory is already locked.	设置filechannel本地备份的data与checkpoint目录不能同名为同一目录，因为filechannel会同时非递归锁住两个目录

2. kafka-cluster

编号	描述	现象	方法
1	kafka服务启动后运行出现日志异常，进程名自杀	[[Replica Manager on Broker 3]: Shutted down completely (kafka.server.ReplicaManager)]	更改启动方式：以daemon方式启动： bin/kafka-server-start.sh -daemon ./config/server.properties
2	topic消费异常	kafkaServer.out:kafka.common.OffsetOutOfRangeException: Request for offset 4520 but we only have log segments in the range 0 to 4519	由于zk-offset值与kafka日志状态未同步导致，导致消费者拿到的offset出现超前或过期的offset, 调节zookeeper集群的 /consumers/offset参数值
3	生产者进行数据生产时，获取元数据失败，找不到topic-partitiond的对应leader节点	LeaderNoAvailble问题	获取zookeeper元数据超时导致，可以适当调大连接zk服务超时参数:zookeeper.connection.timeout.ms=1000000
4	生产者进行数据生产时，获取元数据超时	Failed to send producer request with correlation id 463112757 to broker 1 with data for partitions [dsp_pv_Top ic,2] Java.net.SocketTimeoutException]	client与kafka沟通超时，适当调大kafka-client读超时时间agent.sinks.k2.kafka.request.timeout.ms = 60000
5	消费端消费消息时，无法解析kafka的broke列表的hosts	消费端连接上zk-cluster，然后程序夯住 ConsumerIterator<byte[], byte[]> iter = kafkaStream.iterator(); while (iter.hasNext()) { }	由于zk-cluster默认给client的broke-ip值是host-name,而客户端不识别导致；修改kafka-server参数，如：host.name=10.20.37.109；advertised.host.name=10.20.37.109

3. zookeeper-cluster

编号	描述	现象	方法
1	zookeeper运行持续一段时间后，日志写爆磁盘	844G ./home2/data/tmp/zookeeper/version-2	默认情况下，zookeeper不会删除dataDir下的树目录和事务镜像日志，所以须设置zoo.cfg以下参数： autopurge.snapRetainCount=20 autopurge.purgeInterval=1

posted @ 2017-02-07 16:20 gisorange 阅读(564) 评论(0) 编辑收藏举报

刷新页面返回顶部