随笔分类 - 问题定位
摘要:背景 有同学反馈kafka某个topic有消息丢失(消费比生产的要少),丢失率大概20% 排查 出现问题的topic的replication-factor为2,partition数量为5,该topic状态如下: 有一个topic处于Under Replicated状态,ISR只有1个,193节点被踢
阅读全文
摘要:背景 kafka执行reassign后部分partition一直is still in progress,日志如下: 定位 经排查发现问题原因是做reassign的时候,将分区从相同broker的一个盘移动到另一个盘,这个操作目前还不被支持,官方解释如下 How to move replica be
阅读全文
摘要:背景 2个节点分别升级spark版本,从2.4升级到3.1,升级后一个节点执行spark-sql正常,另一个节点执行报错,报错信息如下: spark-sql> select * from $table where dt = '$dt' limit 5; Error in query: org.apa
阅读全文
摘要:背景 在hive sql中执行添加临时udf的操作 add jar hdfs:///user/hive/lib/tools-1.0.jar; create temporary function decode as 'com.test.etl.Decoder'; 在定时任务重偶尔会报错,报错比较随机,
阅读全文
摘要:背景 kafka部分进程重启,报错如下: java.io.IOException: Too many open files at sun.nio.ch.ServerSocketChannelImpl.accept(ServerSocketChannelImpl.java:422) at sun.ni
阅读全文
摘要:现象 hbase的region server进程大面积重启 排查 第一个重启的region server节点有如下报错: 2021-12-03 14:44:11,948 WARN org.apache.hadoop.hdfs.DFSClient: Failed to connect to /$ser
阅读全文
摘要:背景 某天开始集群网络带宽被占满 登录出问题的节点,通过iftop发现有大量出网方向的流量 hadoop-* ⇒ c-73-29-172-82.hsd1.nj.comcast.net 422Mb 433Mb 236Mb ⇐ 0b 0b 0b hadoop-* ⇒ cpe-75-187-235-200
阅读全文
摘要:背景 logstash集群,每个节点服务器配置和任务配置相同,但是其中一个节点发生比较大的消费延迟 定位 观察发现出问题的节点负载比其他节点要低很多,进一步对比logstash进程内线程的情况,发现出问题的节点只有4个worker进程,而正常节点有16个worker进程 进一步排查发现问题节点的lo
阅读全文
摘要:kafka reassign过程详见:reassign过程 最近kafka集群发生reassign过程卡住的情况,问题发生过程如下 问题日志 2021-07-16 10:35:41,193 INFO kafka.controller.KafkaController: [Controller id=3
阅读全文
摘要:impala有时查询报错内存不足,并持续一段时间后自动恢复,报错时日志如下: org.apache.hive.service.cli.HiveSQLException: ExecQueryFInstances rpc query_id=834c3b2376181f0e:a901620f0000000
阅读全文
摘要:使用easyexcel实现excel导出功能,有时会报错 com.alibaba.excel.exception.ExcelGenerateException: java.lang.NoClassDefFoundError: Could not initialize class net.sf.cgl
阅读全文
摘要:openresty(nginx+lua)中获取不到post数据,ngx.req.get_body_data返回nil This function returns nil if the request body has not been read, the request body has been
阅读全文
摘要:先看代码 org.springframework.web.client.RestTemplate public RestTemplate() { this.messageConverters = new ArrayList(); this.errorHandler = new DefaultResp
阅读全文
摘要:mysql启动失败,一直crash,报错如下: 2019-03-14T11:15:12.937923Z 0 [Note] InnoDB: Uncompressed page, stored checksum in field1 1118110825, calculated checksums for
阅读全文
摘要:hive metastore在建表时报错 [pool-5-thread-2]: MetaException(message:Got exception: java.net.ConnectException Call From server2 to server1:8020 failed on con
阅读全文
摘要:集群中有一台datanode一直启动报错如下: java.net.BindException: Problem binding to [$server1:50020] java.net.BindException: Address already in use; For more details s
阅读全文
摘要:服务器集群之间忽然ssh跳转不通 # ssh 192.168.0.1The authenticity of host '192.168.0.1 (192.168.0.1)' can't be established.RSA1 key fingerprint is 07:e4:54:79:62:60:
阅读全文
摘要:spark 2.1.1 spark应用中有一些task非常慢,持续10个小时,有一个task日志如下: 2019-01-24 21:38:56,024 [dispatcher-event-loop-22] INFO org.apache.spark.executor.CoarseGrainedExe
阅读全文
摘要:redhat6系统默认安装的glibc-2.12,有的软件依赖的是glibc-2.14,这时需要升级glibc,下载安装 http://ftp.gnu.org/gnu/glibc/glibc-2.14.tar.gz # ./configure --prefix=/usr --disable-prof
阅读全文
摘要:hbase 2.0.2 hbase standalone方式启动报错: 2019-01-17 15:49:08,730 ERROR [Thread-24] master.HMaster: Failed to become active master java.lang.IllegalStateExc
阅读全文