摘要: 一、场景一 集群信息: 7台管理节点+51台数据节点 ###此为一套多租户集群 问题描述: 4月13 10:30 其中一台数据节点因硬件故障,突然宕机,同时业务出现入库缓慢现象 故障检查: hbase hbck ###检查hbase健康情况,结果为:INCONSISTENT,不一致的记录共80条 故 阅读全文
posted @ 2022-02-25 15:17 Harda 阅读(987) 评论(0) 推荐(0) 编辑
摘要: 一、现象:2021年5月12日,17:05分,业务处理能量下降,开始积压 二、集群指标检查 运行脚本检查各项指标,发现2个指标异常如下 1、17点后每个节点出现大量的slow 2、发现每台主机的底层IO等待较高 三、问题分析 1、17:05其中一台数据节点磁盘故障,datanode掉线,此节点的数据 阅读全文
posted @ 2022-02-25 15:11 Harda 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 1、反馈 业务侧反馈日常进行spark作业跑不动,执行速度特别慢,影响当天任务生成,后续活动执行; 主要现象及影响: 1、regionserver频繁挂,日志出现大量gc信息 2、spark类型的作业跑得慢,跟业务一起做测试定位原因,发现主要是hbase get比较耗时 3、标签入库较慢(将数据pu 阅读全文
posted @ 2022-02-25 14:19 Harda 阅读(1052) 评论(0) 推荐(0) 编辑