随笔档案「2022年2月」 - Harda

MYSQL优化之主机层面优化

摘要：一、安装前系统环境检测 1、Selinux和系统防火墙iptables需要关闭要把selinux设置成disable，设置完成后需重启系统 cat /etc/sysconfig/selinux 查看iptables当前状态与关闭过程 chkconfig --list chkconfig iptab 阅读全文

posted @ 2022-02-27 14:18 Harda 阅读(185) 评论(0) 推荐(0)

hbase问题及优化

摘要：问题现象：效率低，造成前端文件积压造成SDFS向hbase集群写文件效率低，发生积压的主要原因为以下： 1. Hbase regionserver服务JVM 堆内存新生代和老生代的使用率较高，GC次数频繁（服务启动至今发生过3W多次）及GC时间较长。 2. 目前每个节点平均700多个region，阅读全文

posted @ 2022-02-26 16:33 Harda 阅读(338) 评论(0) 推荐(0)

spark作业在YARN上排队优化过程

摘要：一、集群现状：集群2管理节点+14数据节点，一台数据节点硬件异常，相应进程未启动，每台主机物理cpu16c，yarn配置了15c，目前集群共有15*13=195c 二、队列配置集群分为straapp、e3base、generate三个队列 1、straapp跑的是mr作业 2、e3base跑的是阅读全文

posted @ 2022-02-26 15:20 Harda 阅读(411) 评论(0) 推荐(0)

hadoop数据节点磁盘均衡（5.14.0及以上版本)

摘要：适应场景：解决数据节点上的磁盘失衡的痛点，如：扩容磁盘或磁盘更换等均衡步骤： 1、修改文件 hdfs-site.xml中的参数dfs.disk.balancer.enabled 值设置为true 2、开始均衡磁盘（分三分进行分别为：plan, execute, query) 一步，HDFS客户端从阅读全文

posted @ 2022-02-26 15:11 Harda 阅读(305) 评论(0) 推荐(0)

hdfs及hbase相关优化方案

摘要：1、Hadoop集群小文件太多 Hadoop集群小文件太多，数据节点太少，消耗大量缓存，随着业务数据量变多，hdfs反应速度会越来越慢，效率越来越低（1）yarn日志（paas侧清理）（2）hbase表，虽然整体数据量不算大，但是表太多，很多表是2017、2018、2019年的表，建议清理（CR 阅读全文

posted @ 2022-02-26 15:05 Harda 阅读(123) 评论(0) 推荐(0)

hbase设置权限

摘要：1、修改配置文件hbase-site.xml，添加以下内容 <property> <name>hbase.security.authorization</name> <value>true</value> </property> <property> <name>hbase.rpc.engine</ 阅读全文

posted @ 2022-02-26 14:59 Harda 阅读(676) 评论(0) 推荐(0)

测试环境hbase集群异常

摘要：集群共三台主机，两个数据节点，hbase共有两个regionserver 1）存在的问题 8月6日晚九点半，测试集群两个regionserver同时异常，hbase除了list以外的操作都不能执行，观察master和regionserver的日志，都出现了如下报错：（2）分析过程从日志中暂时未分阅读全文

posted @ 2022-02-26 14:50 Harda 阅读(100) 评论(0) 推荐(0)

Hbase建立容灾备份机制步骤

摘要：集群信息：生产集群(主）：31台（3管理节点+28数据节点） zk部署地址：10.105.54.11-13 容灾集群（从）：10台（3管理节点+7数据节点） zk部署地址：10.114.196.194-10.114.196.196 前期准备条件： 1、配置生产与容灾主机hosts 2、添加repl 阅读全文

posted @ 2022-02-26 14:42 Harda 阅读(163) 评论(0) 推荐(0)

hbase的archive和WALs目录下自动清理失效

摘要：问题现象：archive和WALs目录快速上涨，导至hdfs存储量到达告警上限问题分析：archive和WALs目录下自动清理失效解决步骤： 1、查看master日志，看看是否有错误信息，如下图，情况为内存溢出，无法新建线程，需上调master内存堆 2、调整hbase-env.sh参数，将根阅读全文

posted @ 2022-02-26 14:27 Harda 阅读(888) 评论(1) 推荐(0)

ycsb工具之hbase测试

摘要：集群环境：临时搭建一套集群（3台虚拟机）下载ycsb工具包：ycsb-0.12.0.tar.gz 下载地址： https://github.com/brianfrankcooper/YCSB/releases/tag/0.12.0 安装步骤： 1、解压安装包 tar zxvf ycsb-0.1 阅读全文

posted @ 2022-02-26 14:25 Harda 阅读(321) 评论(0) 推荐(0)

hbase集群不一致处理处理的经典案例

摘要：一、场景一集群信息： 7台管理节点+51台数据节点 ###此为一套多租户集群问题描述： 4月13 10:30 其中一台数据节点因硬件故障，突然宕机，同时业务出现入库缓慢现象故障检查： hbase hbck ###检查hbase健康情况，结果为:INCONSISTENT,不一致的记录共80条故阅读全文

posted @ 2022-02-25 15:17 Harda 阅读(1232) 评论(0) 推荐(0)

hadoop业务积压分析及处理

摘要：一、现象：2021年5月12日，17:05分，业务处理能量下降，开始积压二、集群指标检查运行脚本检查各项指标，发现2个指标异常如下 1、17点后每个节点出现大量的slow 2、发现每台主机的底层IO等待较高三、问题分析 1、17:05其中一台数据节点磁盘故障，datanode掉线，此节点的数据阅读全文

posted @ 2022-02-25 15:11 Harda 阅读(112) 评论(0) 推荐(0)

hadoop集群spark作业执行较慢、入库较慢相关问题排查及调优

摘要：1、反馈业务侧反馈日常进行spark作业跑不动，执行速度特别慢，影响当天任务生成，后续活动执行；主要现象及影响： 1、regionserver频繁挂，日志出现大量gc信息 2、spark类型的作业跑得慢，跟业务一起做测试定位原因，发现主要是hbase get比较耗时 3、标签入库较慢（将数据pu 阅读全文

posted @ 2022-02-25 14:19 Harda 阅读(1307) 评论(0) 推荐(0)

yarn的hive作业卡住

摘要：01/24晚业务侧反应有一个应该白天完成的作业一直跑到了十点多还没结束，立即检查了yarn监控页面，并未发现资源（包括vcore及队列资源等）不足的情况查看作业的详细日志，发现作业卡在三点多一直并未更新查看作业ApplicationMaster，发现mapreduce已经成功跑完，怀疑表有锁经阅读全文

posted @ 2022-02-23 13:48 Harda 阅读(462) 评论(0) 推荐(0)

Hadoop集群regionserver节点故障

摘要：全触点Hadoop集群出现regionserver频繁掉的现象，大部分掉的都是140的regionserver节点，查看日志后发现两处信息查看相关主机信息并无异常，日志信息显示由于与zk的session超时，查看MaxSessionTimeout、zookeeper.session.timeout 阅读全文

posted @ 2022-02-22 21:28 Harda 阅读(98) 评论(0) 推荐(0)

HIVE处理速度过慢

摘要：2019/01/21下午，业务侧反馈hive处理速度过慢，目前所有涉及hive的作业都很慢，影响这些业务不能在正常时间内完成以下实例供参考，在生产环境中运行：在Hive客户端执行select count(*) from tableName; table1中有20w数据，跑了30S出结果； tab 阅读全文

posted @ 2022-02-22 10:25 Harda 阅读(2049) 评论(0) 推荐(0)

hive中drop表效率低

摘要：问题描述: 使用hive时，drop表很慢，一张空表都需要90s左右检查：检查hive日志，无报错信息检查主机资源消耗情况，正常无瓶颈检查mysql日志，无错误提示检查mysql慢日志（slow.log),发现在drop表时，会在元数据库中进行select,并且时间消耗接近于drop表的时阅读全文

posted @ 2022-02-21 22:48 Harda 阅读(893) 评论(0) 推荐(0)

YARN生产MR异常处理过程

摘要：问题描述：部分mr任务提交较慢，跟踪日志发现，reduce的过程中，进度条还会倒退，如：已经reduce至80%，下一刻会慢慢下降79%，78%... 分析过程： 1、根据日志描述，任务不存在于缓存中 2、查看主机资源利用率情况调nmon查看记录，异常时，主机资源利用率虽然偶尔出现较高的峰值，但阅读全文

posted @ 2022-02-21 22:40 Harda 阅读(189) 评论(0) 推荐(0)

Hbase数据不一致修复

摘要：Region数据不一致是什么一致性是指Region在meta中的meta表信息、在线Regionserver的Region信息和hdfs的Regioninfo的Region信息的一致。 HBCK检查什么 a.集群所有region都被assign，且被deploy到唯一一台regionserver上阅读全文

posted @ 2022-02-20 17:31 Harda 阅读(2580) 评论(0) 推荐(0)

Harda

02 2022 档案

公告