线上问题备忘录
1. flume-cluster
编 号 |
描述 |
现象 |
方法 |
1 |
flume启动时元数据锁异常,导致无法启动 |
Due to java.io.IOException: Cannot lock /filechannel/. The directory is already locked. |
设置filechannel本地备份的data与checkpoint目录不能同名为同一目录,因为filechannel会同时非递归锁住两个目录 |
2. kafka-cluster
编 号 |
描述 |
现象 |
方法 |
1 |
kafka服务启动后运行出现日志异常,进程名自杀 |
[[Replica Manager on Broker 3]: Shutted down completely (kafka.server.ReplicaManager)] |
更改启动方式:以daemon方式启动: |
2 |
topic消费异常 |
kafkaServer.out:kafka.common.OffsetOutOfRangeException: Request for offset 4520 but we only have log segments in the range 0 to 4519 |
由于zk-offset值与kafka日志状态未同步导致,导致消费者拿到的offset出现超前或过期的offset, 调节zookeeper集群的 /consumers/offset参数值 |
3 |
生产者进行数据生产时,获取元数据失败,找不到topic-partitiond的对应leader节点 |
LeaderNoAvailble问题 |
获取zookeeper元数据超时导致,可以适当调大连接zk服务超时参数:zookeeper.connection.timeout.ms=1000000 |
4 |
生产者进行数据生产时,获取元数据超时 |
Failed to send producer request with
correlation id 463112757 to broker 1 with data for partitions [dsp_pv_Top |
client与kafka沟通超时,适当调大kafka-client读超时时间agent.sinks.k2.kafka.request.timeout.ms = 60000 |
5 |
消费端消费消息时,无法解析kafka的broke列表的hosts |
消费端连接上zk-cluster,然后程序夯住 |
由于zk-cluster默认给client的broke-ip值是host-name,而客户端不识别导致; 修改kafka-server参数,如:host.name=10.20.37.109;advertised.host.name=10.20.37.109 |
3. zookeeper-cluster
编 号 |
描述 |
现象 |
方法 |
1 |
zookeeper运行持续一段时间后,日志写爆磁盘 |
844G ./home2/data/tmp/zookeeper/version-2 |
默认情况下,zookeeper不会删除dataDir下的树目录和事务镜像日志, |