Hive - [08] 数据仓库物理模型设计

 

分区

 

分区是将表的数据按照某个列的值进行划分和存储的一种方式。通过分区,可以将数据按照特定的维度进行组织,提高查询效率和数据管理的灵活性。

 

一、分区的优势

  • 提高查询性能:通过分区,可以将数据按照特定的列值进行划分,使得查询只需要扫描特定分区的数据,减少了全表扫描的开销。
  • 管理数据更加灵活:可以根据业务需求对数据进行分区,方便数据的管理和维护。
  • 支持数据生命周期:可以根据数据的时间或其他维度进行分区,方便数据的归档和清理。

 

二、创建分区表

create table my_table(
    col1 int,
    col2 string
)
partitioned by (dt string,country string);
  • 时间:根据时间戳或日期将数据按照不同的时间段进行分区,例如按年、月、日等。
  • 地理位置:根据地理位置将数据按照不同的地域进行分区,例如国家、城市等。
  • 类别/类型:根据某个类别或类型属性将数据进行分类并进行相应的分区。

 

三、操作分区数据

 -- 开启动态分区功能
SET hive.exec.dynamic.partition=true;
-- 设置动态分区模式为非严格模式(允许部分分区为静态分区,部分为动态分区)
SET hive.exec.dynamic.partition.mode=nonstrict;

-- 插入分区数据
insert into my_table 
partition (dt='2024-04-18',country='China')
values (1,'data1'),(2,'data2');

-- 查询分区数据
select col1,col2
from my_table
where dt='2024-04-18' and country='China';

此外,为了控制动态分区的数量,避免过多的小文件,还可以设置以下参数

SET hive.exec.max.dynamic.partitions.pernode=1000; -- 每个节点的最大动态分区数
SET hive.exec.max.dynamic.partitions=10000; -- 总的最大动态分区数
SET hive.exec.max.created.files=100000; -- 一次查询中创建的最大文件数

在hive中可以使用如下sql查看相关参数(比如hive.exec.dynamic.partition)的当前配置

set hive.exec.dynamic.partition;

 

四、分区的设置

  • 选择合适的分区键,通常选择日期作为分区键
  • 评估每天的数据增长量,预估未来三年内的空间情况及记录数
  • 若每天的记录数较少,则选择范围分区,若每天记录数较多,则选择单值分区。
  • 范围分区视数据增长情况,按月、按季、按年进行

 

 

分桶

 

分桶是将表的数据按照哈希函数的结果进行划分和存储的一种方式。通过分桶,可以将数据均匀地分布到不同的桶中,提高查询的并行度和性能。

 

一、分桶的优势

  • 提高查询性能:通过分桶,可以将数据均匀地分布到不同的桶中,使得查询可以并行地处理不同的桶,提高查询性能。
  • 支持随机抽样:分桶可以方便地进行随机抽样操作,从而进行数据分析和调试。

 

二、创建分桶表

create table my_bucketed_table (
    column1 int,
    column2 string
)
clustered by (column1) into 3 buckets
stored as orc;

 

三、分桶数据的操作

-- 插入数据
insert overwrite table my_bucketed_table
select col1,col2 from my_table;

-- 查询数据
select column1,column2
from my_bucketed_table
where column1=1;

 

 

四、分桶键的确认

通常对于单个分桶,记录数建议不超过1000w,或压缩前文本大小不超过1000MB

  • 分桶数必须为质数(只能被1和它本身整除的数)
  • 分桶数量 < 500个
  • 选择分桶字段时,尽量选择离散度较高的列,以避免造成Bucket的大小过意悬殊。
  • 常用的分桶字段多为原表主键,或者身份证号码、手机号等信息
  • 选择不会做update的字段(即确认下来的分桶键字段的值相对来说是常量,字段的值不会因为业务而变动)

查看数据分布,确认离散度较高的列,也就是相对来说数据分布较为均衡的字段。

select column_name,count(*) as count
from table_name
group by column_name
order by count;

 

 

 

分区分桶数的综合评估

  • 分区数 * 分桶数 < 10000个
  • 单个分区记录数 < 5000w
  • 分区数量 < 200个
  • 单个分区内的分桶数是否小于Hive配置CPU数

 

 

 

 

 

— 要养成终身学习的习惯 —

posted @ 2024-04-18 10:00  HOUHUILIN  阅读(18)  评论(0编辑  收藏  举报