Hive - [08] 数据仓库物理模型设计

分区

分区是将表的数据按照某个列的值进行划分和存储的一种方式。通过分区，可以将数据按照特定的维度进行组织，提高查询效率和数据管理的灵活性。

一、分区的优势

提高查询性能：通过分区，可以将数据按照特定的列值进行划分，使得查询只需要扫描特定分区的数据，减少了全表扫描的开销。
管理数据更加灵活：可以根据业务需求对数据进行分区，方便数据的管理和维护。
支持数据生命周期：可以根据数据的时间或其他维度进行分区，方便数据的归档和清理。

二、创建分区表

create table my_table(
    col1 int,
    col2 string
)
partitioned by (dt string,country string);

时间：根据时间戳或日期将数据按照不同的时间段进行分区，例如按年、月、日等。
地理位置：根据地理位置将数据按照不同的地域进行分区，例如国家、城市等。
类别/类型：根据某个类别或类型属性将数据进行分类并进行相应的分区。

三、操作分区数据

 -- 开启动态分区功能
SET hive.exec.dynamic.partition=true;
-- 设置动态分区模式为非严格模式（允许部分分区为静态分区，部分为动态分区）
SET hive.exec.dynamic.partition.mode=nonstrict;

-- 插入分区数据
insert into my_table 
partition (dt='2024-04-18',country='China')
values (1,'data1'),(2,'data2');

-- 查询分区数据
select col1,col2
from my_table
where dt='2024-04-18' and country='China';

此外，为了控制动态分区的数量，避免过多的小文件，还可以设置以下参数

SET hive.exec.max.dynamic.partitions.pernode=1000; -- 每个节点的最大动态分区数
SET hive.exec.max.dynamic.partitions=10000; -- 总的最大动态分区数
SET hive.exec.max.created.files=100000; -- 一次查询中创建的最大文件数

在hive中可以使用如下sql查看相关参数（比如hive.exec.dynamic.partition）的当前配置

set hive.exec.dynamic.partition;

四、分区的设置

选择合适的分区键，通常选择日期作为分区键
评估每天的数据增长量，预估未来三年内的空间情况及记录数
若每天的记录数较少，则选择范围分区，若每天记录数较多，则选择单值分区。
范围分区视数据增长情况，按月、按季、按年进行

分桶

分桶是将表的数据按照哈希函数的结果进行划分和存储的一种方式。通过分桶，可以将数据均匀地分布到不同的桶中，提高查询的并行度和性能。

一、分桶的优势

提高查询性能：通过分桶，可以将数据均匀地分布到不同的桶中，使得查询可以并行地处理不同的桶，提高查询性能。
支持随机抽样：分桶可以方便地进行随机抽样操作，从而进行数据分析和调试。

二、创建分桶表

create table my_bucketed_table (
    column1 int,
    column2 string
)
clustered by (column1) into 3 buckets
stored as orc;

三、分桶数据的操作

-- 插入数据
insert overwrite table my_bucketed_table
select col1,col2 from my_table;

-- 查询数据
select column1,column2
from my_bucketed_table
where column1=1;

四、分桶键的确认

通常对于单个分桶，记录数建议不超过1000w，或压缩前文本大小不超过1000MB

分桶数必须为质数（只能被1和它本身整除的数）
分桶数量 < 500个
选择分桶字段时，尽量选择离散度较高的列，以避免造成Bucket的大小过意悬殊。
常用的分桶字段多为原表主键，或者身份证号码、手机号等信息
选择不会做update的字段（即确认下来的分桶键字段的值相对来说是常量，字段的值不会因为业务而变动）

查看数据分布，确认离散度较高的列，也就是相对来说数据分布较为均衡的字段。
select column_name,count(*) as count
from table_name
group by column_name
order by count;

分区分桶数的综合评估

分区数 * 分桶数 < 10000个
单个分区记录数 < 5000w
分区数量 < 200个
单个分区内的分桶数是否小于Hive配置CPU数

— 要养成终身学习的习惯 —

posted @ 2024-04-18 10:00 HOUHUILIN 阅读(46) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Hive - 数据流转与DDL设计

· Hive - 面试题

· Hive的分区、分桶

· Hive（七）分区表和分桶表

· hive分区和分桶你熟悉吗？

公告

昵称： HOUHUILIN
园龄： 5年8个月
粉丝： 20
关注： 14

+加关注

2025年3月

日

一

二

三

四

五

六

HOUHUILIN

别在最好的年纪，辜负了最好的自己。

Hive - [08] 数据仓库物理模型设计

分区

一、分区的优势

二、创建分区表

三、操作分区数据

四、分区的设置

分桶

一、分桶的优势

二、创建分桶表

三、分桶数据的操作

四、分桶键的确认

分区分桶数的综合评估

公告

搜索

常用链接

积分与排名

随笔分类 (298)

随笔档案 (316)

文章分类 (9)

文章档案 (14)

【程序猿的精神食粮】

Azure

Windows

你成功过么？哪怕一次！

阅读排行榜

评论排行榜

推荐排行榜

最新评论