02 2022 档案
摘要:一、安装前系统环境检测 1、Selinux和系统防火墙iptables需要关闭 要把selinux设置成disable,设置完成后需重启系统 cat /etc/sysconfig/selinux 查看iptables当前状态与关闭过程 chkconfig --list chkconfig iptab
阅读全文
摘要:问题现象:效率低,造成前端文件积压 造成SDFS向hbase集群写文件效率低,发生积压的主要原因为以下: 1. Hbase regionserver服务JVM 堆内存新生代和老生代的使用率较高,GC次数频繁(服务启动至今发生过3W多次)及GC时间较长。 2. 目前每个节点平均700多个region,
阅读全文
摘要:一、集群现状: 集群2管理节点+14数据节点,一台数据节点硬件异常,相应进程未启动,每台主机物理cpu16c,yarn配置了15c,目前集群共有15*13=195c 二、队列配置 集群分为straapp、e3base、generate三个队列 1、straapp跑的是mr作业 2、e3base跑的是
阅读全文
摘要:适应场景:解决数据节点上的磁盘失衡的痛点,如:扩容磁盘或磁盘更换等 均衡步骤: 1、修改文件 hdfs-site.xml中的参数dfs.disk.balancer.enabled 值设置为true 2、开始均衡磁盘(分三分进行分别为:plan, execute, query) 一步,HDFS客户端从
阅读全文
摘要:1、Hadoop集群小文件太多 Hadoop集群小文件太多,数据节点太少,消耗大量缓存,随着业务数据量变多,hdfs反应速度会越来越慢,效率越来越低 (1)yarn日志(paas侧清理) (2)hbase表,虽然整体数据量不算大,但是表太多,很多表是2017、2018、2019年的表,建议清理(CR
阅读全文
摘要:1、修改配置文件hbase-site.xml,添加以下内容 <property> <name>hbase.security.authorization</name> <value>true</value> </property> <property> <name>hbase.rpc.engine</
阅读全文
摘要:集群共三台主机,两个数据节点,hbase共有两个regionserver 1)存在的问题 8月6日晚九点半,测试集群两个regionserver同时异常,hbase除了list以外的操作都不能执行,观察master和regionserver的日志,都出现了如下报错: (2)分析过程 从日志中暂时未分
阅读全文
摘要:集群信息: 生产集群(主):31台(3管理节点+28数据节点) zk部署地址:10.105.54.11-13 容灾集群(从):10台(3管理节点+7数据节点) zk部署地址:10.114.196.194-10.114.196.196 前期准备条件: 1、配置生产与容灾主机hosts 2、添加repl
阅读全文
摘要:问题现象:archive和WALs目录快速上涨,导至hdfs存储量到达告警上限 问题分析:archive和WALs目录下自动清理失效 解决步骤: 1、 查看master日志,看看是否有错误信息,如下图,情况为内存溢出,无法新建线程,需上调master内存堆 2、调整hbase-env.sh参数,将根
阅读全文
摘要:集群环境:临时搭建一套集群(3台虚拟机)下载ycsb工具包:ycsb-0.12.0.tar.gz 下载地址: https://github.com/brianfrankcooper/YCSB/releases/tag/0.12.0 安装步骤: 1、 解压 安装 包 tar zxvf ycsb-0.1
阅读全文
摘要:一、场景一 集群信息: 7台管理节点+51台数据节点 ###此为一套多租户集群 问题描述: 4月13 10:30 其中一台数据节点因硬件故障,突然宕机,同时业务出现入库缓慢现象 故障检查: hbase hbck ###检查hbase健康情况,结果为:INCONSISTENT,不一致的记录共80条 故
阅读全文
摘要:一、现象:2021年5月12日,17:05分,业务处理能量下降,开始积压 二、集群指标检查 运行脚本检查各项指标,发现2个指标异常如下 1、17点后每个节点出现大量的slow 2、发现每台主机的底层IO等待较高 三、问题分析 1、17:05其中一台数据节点磁盘故障,datanode掉线,此节点的数据
阅读全文
摘要:1、反馈 业务侧反馈日常进行spark作业跑不动,执行速度特别慢,影响当天任务生成,后续活动执行; 主要现象及影响: 1、regionserver频繁挂,日志出现大量gc信息 2、spark类型的作业跑得慢,跟业务一起做测试定位原因,发现主要是hbase get比较耗时 3、标签入库较慢(将数据pu
阅读全文
摘要:01/24晚业务侧反应有一个应该白天完成的作业一直跑到了十点多还没结束,立即检查了yarn监控页面,并未发现资源(包括vcore及队列资源等)不足的情况 查看作业的详细日志,发现作业卡在三点多一直并未更新 查看作业ApplicationMaster,发现mapreduce已经成功跑完,怀疑表有锁 经
阅读全文
摘要:全触点Hadoop集群出现regionserver频繁掉的现象,大部分掉的都是140的regionserver节点,查看日志后发现两处信息 查看相关主机信息并无异常,日志信息显示由于与zk的session超时,查看MaxSessionTimeout、zookeeper.session.timeout
阅读全文
摘要:2019/01/21下午,业务侧反馈hive处理速度过慢,目前所有涉及hive的作业都很慢,影响这些业务不能在正常时间内完成 以下实例供参考,在生产环境中运行: 在Hive客户端执行select count(*) from tableName; table1中有20w数据,跑了30S出结果; tab
阅读全文
摘要:问题描述: 使用hive时,drop表很慢,一张空表都需要90s左右 检查: 检查hive日志,无报错信息 检查主机资源消耗情况,正常无瓶颈 检查mysql日志,无错误提示 检查mysql慢日志(slow.log),发现在drop表时,会在元数据库中进行select,并且时间消耗接近于drop表的时
阅读全文
摘要:问题描述: 部分mr任务提交较慢,跟踪日志发现,reduce的过程中,进度条还会倒退,如:已经reduce至80%,下一刻会慢慢下降79%,78%... 分析过程: 1、根据日志描述,任务不存在于缓存中 2、查看主机资源利用率情况 调nmon查看记录,异常时,主机资源利用率虽然偶尔出现较高的峰值,但
阅读全文
摘要:Region数据不一致是什么 一致性是指Region在meta中的meta表信息、在线Regionserver的Region信息和hdfs的Regioninfo的Region信息的一致。 HBCK检查什么 a.集群所有region都被assign,且被deploy到唯一一台regionserver上
阅读全文