hdfs及hbase相关优化方案
1、Hadoop集群小文件太多
Hadoop集群小文件太多,数据节点太少,消耗大量缓存,随着业务数据量变多,hdfs反应速度会越来越慢,效率越来越低


(1)yarn日志(paas侧清理)

(2)hbase表,虽然整体数据量不算大,但是表太多,很多表是2017、2018、2019年的表,建议清理(CRM_MCI侧清理)

(3)hive表,2017、2018、2019年的表建议清理(CRM_MCI侧清理)

(4)hdfs上有一个全触点自己使用的目录,存放了一些历史文件,请及时清理(CRM_MCI侧清理)

2、hbase访问热点
从监控页面上可以看到,request访问不均匀,部分主机到达两三万访问的时候,有的主机才一二百,存在数据热点

优化:
(1)找到每台主机访问比较高的表,查看每张表对应得region分布是否均匀,如果region数较少,可以手动分裂,做到region均匀分布在各个数据节点上
(2)建议每张表的region个数至少是数据节点得个数,只有1个region的表是不合理得,修改建表语句,对每张表做reigion预划分
目前的业务逻辑每天会新增很多表,每张表做预划分提高hbase效率得同时,会增多hdfs文件个数,给hdfs集群带来压力,建议业务侧修改业务逻辑,不要每天建这么多表,或者定义较短的数据生命周期,只保留几天得表

【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(1)