|NO.Z.00011|——————————|BigDataEnd|——|Hadoop&Impala.V11|——|Impala.v11|集群优化.v02|
一、Impala优化
### --- Impala优化
cloudera官网上的Impala文档,原名为《Impala Performance Guidelines and Best Practices》。
主要介绍了为了提升impala性能应该考虑的一些事情,结合实际考虑:
### --- 基本优化策略
~~~ # 文件格式:
~~~ 对于大数据量来说,Parquet文件格式是最佳的
~~~ # 避免小文件:
~~~ insert ... values 会产生大量小文件,
~~~ 避免使⽤合理分区粒度利用分区可以在查询的时候忽略略掉无用数据,
~~~ 提高查询效率,通常建议分区数量在3万以下(太多的分区也会造成元数据管理的性能下降)
### --- 分区列数据类型最好是整数类型
~~~ 分区列可以使用string类型,因为分区列的值最后都是作为HDFS目录使用,
~~~ 如果分区列使⽤整数类型可以降低内存消耗获取表的统计指标:
~~~ 在追求性能或者大数据量查询的时候,要先获取所需要的表的统计指标(如:执行compute stats )
### --- 减少传输客户端数据量
~~~ 聚合(如 count、sum、max 等)
~~~ 过滤(如WHERE )
~~~ limit限制返回条数
~~~ 返回结果不要使用美化格式进行展示(在通过impala-shell展示结果时,
~~~ 添加这些可选参数: -B、 --output_delimiter )
### --- 在执行之前使用EXPLAIN来查看逻辑规划,分析执行逻辑
~~~ Impala join自动的优化手段就是通过使用COMPUTE STATS来收集参与Join的每张表的统计信息,
~~~ 然后由Impala根据表的大小、列的唯一值数目等来自动优化查询。
~~~ 为了更加精确地获取每张表的统计信息,
~~~ 每次表的数据变更时(如执行Insert,add partition,drop partition等)
~~~ 最好都要执行一遍COMPUTE STATS获取到准确的表统计信息。
Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart
——W.S.Landor
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」