|NO.Z.00011|——————————|BigDataEnd|——|Hadoop&Impala.V11|——|Impala.v11|集群优化.v02|

一、Impala优化

### --- Impala优化

cloudera官网上的Impala文档，原名为《Impala Performance Guidelines and Best Practices》。
主要介绍了为了提升impala性能应该考虑的一些事情，结合实际考虑：

### --- 基本优化策略

~~~     # 文件格式：
~~~     对于大数据量来说，Parquet文件格式是最佳的
~~~     # 避免小文件：
~~~     insert ... values 会产生大量小文件，
~~~     避免使⽤合理分区粒度利用分区可以在查询的时候忽略略掉无用数据，
~~~     提高查询效率，通常建议分区数量在3万以下(太多的分区也会造成元数据管理的性能下降)

### --- 分区列数据类型最好是整数类型

~~~     分区列可以使用string类型，因为分区列的值最后都是作为HDFS目录使用，
~~~     如果分区列使⽤整数类型可以降低内存消耗获取表的统计指标：
~~~     在追求性能或者大数据量查询的时候，要先获取所需要的表的统计指标(如:执行compute stats )

### --- 减少传输客户端数据量

~~~     聚合(如 count、sum、max 等)
~~~     过滤(如WHERE )
~~~     limit限制返回条数
~~~     返回结果不要使用美化格式进行展示(在通过impala-shell展示结果时，
~~~     添加这些可选参数: -B、 --output_delimiter )

### --- 在执行之前使用EXPLAIN来查看逻辑规划，分析执行逻辑

~~~     Impala join自动的优化手段就是通过使用COMPUTE STATS来收集参与Join的每张表的统计信息，
~~~     然后由Impala根据表的大小、列的唯一值数目等来自动优化查询。
~~~     为了更加精确地获取每张表的统计信息，
~~~     每次表的数据变更时(如执行Insert,add partition,drop partition等)
~~~     最好都要执行一遍COMPUTE STATS获取到准确的表统计信息。

Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart

——W.S.Landor