问题定位 - 随笔分类 - 匠人先生

大叔问题定位分享（48）kafka部分topic出现消息丢失

摘要：背景有同学反馈kafka某个topic有消息丢失（消费比生产的要少），丢失率大概20% 排查出现问题的topic的replication-factor为2，partition数量为5，该topic状态如下：有一个topic处于Under Replicated状态，ISR只有1个，193节点被踢阅读全文

posted @ 2022-05-20 16:17 匠人先生阅读(2655) 评论(0) 推荐(0)

大叔问题定位分享（47）kafka执行reassign后部分partition一直is still in progress

摘要：背景 kafka执行reassign后部分partition一直is still in progress，日志如下：定位经排查发现问题原因是做reassign的时候，将分区从相同broker的一个盘移动到另一个盘，这个操作目前还不被支持，官方解释如下 How to move replica be 阅读全文

posted @ 2022-05-19 17:32 匠人先生阅读(575) 评论(0) 推荐(0)

大叔问题定位分享（46）spark2.4升级3.1后执行spark-sql报错

摘要：背景 2个节点分别升级spark版本，从2.4升级到3.1，升级后一个节点执行spark-sql正常，另一个节点执行报错，报错信息如下： spark-sql> select * from $table where dt = '$dt' limit 5; Error in query: org.apa 阅读全文

posted @ 2022-05-19 16:51 匠人先生阅读(1002) 评论(0) 推荐(0)

大叔问题定位分享（45）hive任务udf函数偶尔报错

摘要：背景在hive sql中执行添加临时udf的操作 add jar hdfs:///user/hive/lib/tools-1.0.jar; create temporary function decode as 'com.test.etl.Decoder'; 在定时任务重偶尔会报错，报错比较随机，阅读全文

posted @ 2022-05-19 15:11 匠人先生阅读(413) 评论(0) 推荐(0)

大叔问题定位分享（44）kafka服务重启

摘要：背景 kafka部分进程重启，报错如下： java.io.IOException: Too many open files at sun.nio.ch.ServerSocketChannelImpl.accept(ServerSocketChannelImpl.java:422) at sun.ni 阅读全文

posted @ 2022-05-19 14:41 匠人先生阅读(742) 评论(0) 推荐(0)

大叔问题定位分享（43）hbase大面积重启

摘要：现象 hbase的region server进程大面积重启排查第一个重启的region server节点有如下报错： 2021-12-03 14:44:11,948 WARN org.apache.hadoop.hdfs.DFSClient: Failed to connect to /$ser 阅读全文

posted @ 2022-05-19 14:15 匠人先生阅读(1252) 评论(0) 推荐(0)

大叔问题定位分享（42）yarn被利用提交get-shell任务挖矿

摘要：背景某天开始集群网络带宽被占满登录出问题的节点，通过iftop发现有大量出网方向的流量 hadoop-* ⇒ c-73-29-172-82.hsd1.nj.comcast.net 422Mb 433Mb 236Mb ⇐ 0b 0b 0b hadoop-* ⇒ cpe-75-187-235-200 阅读全文

posted @ 2022-05-19 10:57 匠人先生阅读(383) 评论(0) 推荐(0)

大叔问题定位分享（41）logstash消费kafka延迟

摘要：背景 logstash集群，每个节点服务器配置和任务配置相同，但是其中一个节点发生比较大的消费延迟定位观察发现出问题的节点负载比其他节点要低很多，进一步对比logstash进程内线程的情况，发现出问题的节点只有4个worker进程，而正常节点有16个worker进程进一步排查发现问题节点的lo 阅读全文

posted @ 2022-05-18 17:47 匠人先生阅读(501) 评论(0) 推荐(0)

大叔问题定位分享（40）kafka reassign卡住

摘要：kafka reassign过程详见：reassign过程最近kafka集群发生reassign过程卡住的情况，问题发生过程如下问题日志 2021-07-16 10:35:41,193 INFO kafka.controller.KafkaController: [Controller id=3 阅读全文

posted @ 2021-07-17 23:14 匠人先生阅读(993) 评论(0) 推荐(0)

大叔问题定位分享（38）impala报错内存不足

摘要：impala有时查询报错内存不足,并持续一段时间后自动恢复,报错时日志如下: org.apache.hive.service.cli.HiveSQLException: ExecQueryFInstances rpc query_id=834c3b2376181f0e:a901620f0000000 阅读全文

posted @ 2020-08-10 18:26 匠人先生阅读(3749) 评论(0) 推荐(0)

大叔问题定位分享（37）easyexcel下载有时报错NoClassDefFoundError

摘要：使用easyexcel实现excel导出功能,有时会报错 com.alibaba.excel.exception.ExcelGenerateException: java.lang.NoClassDefFoundError: Could not initialize class net.sf.cgl 阅读全文

posted @ 2020-08-10 18:07 匠人先生阅读(5389) 评论(0) 推荐(0)

大叔问题定位分享（36）openresty(nginx+lua)中获取不到post数据，ngx.req.get_body_data返回nil

摘要：openresty(nginx+lua)中获取不到post数据，ngx.req.get_body_data返回nil This function returns nil if the request body has not been read, the request body has been 阅读全文

posted @ 2019-07-27 00:26 匠人先生阅读(3446) 评论(1) 推荐(0)

大叔问题定位分享（34）Spring的RestTemplate请求json数据后内容被修改

摘要：先看代码 org.springframework.web.client.RestTemplate public RestTemplate() { this.messageConverters = new ArrayList(); this.errorHandler = new DefaultResp 阅读全文

posted @ 2019-07-05 22:58 匠人先生阅读(936) 评论(0) 推荐(0)

大叔问题定位分享（32）mysql故障恢复

摘要：mysql启动失败，一直crash，报错如下： 2019-03-14T11:15:12.937923Z 0 [Note] InnoDB: Uncompressed page, stored checksum in field1 1118110825, calculated checksums for 阅读全文

posted @ 2019-03-14 19:47 匠人先生阅读(2659) 评论(0) 推荐(0)

大叔问题定位分享（31）hive metastore报错

摘要：hive metastore在建表时报错 [pool-5-thread-2]: MetaException(message:Got exception: java.net.ConnectException Call From server2 to server1:8020 failed on con 阅读全文

posted @ 2019-02-19 13:05 匠人先生阅读(988) 评论(0) 推荐(0)

大叔问题定位分享（29）datanode启动报错：50020端口被占用

摘要：集群中有一台datanode一直启动报错如下： java.net.BindException: Problem binding to [$server1:50020] java.net.BindException: Address already in use; For more details s 阅读全文

posted @ 2019-02-15 17:12 匠人先生阅读(1089) 评论(0) 推荐(1)

大叔问题定位分享（28）openssh升级到7.4之后ssh跳转异常

摘要：服务器集群之间忽然ssh跳转不通 # ssh 192.168.0.1The authenticity of host '192.168.0.1 (192.168.0.1)' can't be established.RSA1 key fingerprint is 07:e4:54:79:62:60: 阅读全文

posted @ 2019-02-13 13:56 匠人先生阅读(7476) 评论(0) 推荐(1)

大叔问题定位分享（27）spark中rdd.cache

摘要：spark 2.1.1 spark应用中有一些task非常慢，持续10个小时，有一个task日志如下： 2019-01-24 21:38:56,024 [dispatcher-event-loop-22] INFO org.apache.spark.executor.CoarseGrainedExe 阅读全文

posted @ 2019-01-25 18:33 匠人先生阅读(1726) 评论(0) 推荐(0)

大叔经验分享（27）linux服务器升级glibc故障恢复

摘要：redhat6系统默认安装的glibc-2.12，有的软件依赖的是glibc-2.14，这时需要升级glibc，下载安装 http://ftp.gnu.org/gnu/glibc/glibc-2.14.tar.gz # ./configure --prefix=/usr --disable-prof 阅读全文

posted @ 2019-01-24 17:11 匠人先生阅读(6050) 评论(1) 推荐(3)

大叔问题定位分享（24）hbase standalone方式启动报错

摘要：hbase 2.0.2 hbase standalone方式启动报错： 2019-01-17 15:49:08,730 ERROR [Thread-24] master.HMaster: Failed to become active master java.lang.IllegalStateExc 阅读全文

posted @ 2019-01-17 16:43 匠人先生阅读(3195) 评论(0) 推荐(3)

Thinking in BigData

匠人先生

随笔分类 - 问题定位

公告