摘要: 背景 kafka执行reassign后部分partition一直is still in progress,日志如下: 定位 经排查发现问题原因是做reassign的时候,将分区从相同broker的一个盘移动到另一个盘,这个操作目前还不被支持,官方解释如下 How to move replica be 阅读全文
posted @ 2022-05-19 17:32 匠人先生 阅读(400) 评论(0) 推荐(0) 编辑
摘要: 背景 2个节点分别升级spark版本,从2.4升级到3.1,升级后一个节点执行spark-sql正常,另一个节点执行报错,报错信息如下: spark-sql> select * from $table where dt = '$dt' limit 5; Error in query: org.apa 阅读全文
posted @ 2022-05-19 16:51 匠人先生 阅读(699) 评论(0) 推荐(0) 编辑
摘要: 背景 hive读取纯文本数据,无论是:原始格式、gzip、bzip,都可以自动识别,不需要修改建表语句或修改setting。 但是使用gobblin开启gzip压缩之后保存文件使用hive读取发生乱码。 定位 首先怀疑是文件损坏 gobblin开启压缩之后写的文件为:*.txt.gzip,将该文件下 阅读全文
posted @ 2022-05-19 16:32 匠人先生 阅读(521) 评论(0) 推荐(0) 编辑
摘要: 假如hive中table或者partition的location错误或者丢失,需要批量修复,可以参考如下步骤: 修复table的location hdfs dfs -ls /data/hive/warehouse/$db | awk '{print $8}' |sed '1d' | awk -F ' 阅读全文
posted @ 2022-05-19 16:20 匠人先生 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 背景 在hive sql中执行添加临时udf的操作 add jar hdfs:///user/hive/lib/tools-1.0.jar; create temporary function decode as 'com.test.etl.Decoder'; 在定时任务重偶尔会报错,报错比较随机, 阅读全文
posted @ 2022-05-19 15:11 匠人先生 阅读(353) 评论(0) 推荐(0) 编辑
摘要: 背景 kafka部分进程重启,报错如下: java.io.IOException: Too many open files at sun.nio.ch.ServerSocketChannelImpl.accept(ServerSocketChannelImpl.java:422) at sun.ni 阅读全文
posted @ 2022-05-19 14:41 匠人先生 阅读(697) 评论(0) 推荐(0) 编辑
摘要: 现象 hbase的region server进程大面积重启 排查 第一个重启的region server节点有如下报错: 2021-12-03 14:44:11,948 WARN org.apache.hadoop.hdfs.DFSClient: Failed to connect to /$ser 阅读全文
posted @ 2022-05-19 14:15 匠人先生 阅读(1092) 评论(0) 推荐(0) 编辑
摘要: 背景 某天开始集群网络带宽被占满 登录出问题的节点,通过iftop发现有大量出网方向的流量 hadoop-* ⇒ c-73-29-172-82.hsd1.nj.comcast.net 422Mb 433Mb 236Mb ⇐ 0b 0b 0b hadoop-* ⇒ cpe-75-187-235-200 阅读全文
posted @ 2022-05-19 10:57 匠人先生 阅读(309) 评论(0) 推荐(0) 编辑