Hive分区表和桶表的使用 - 那山的狐狸 - 博客园

Hive分区表和桶表的使用

原文链接：

https://www.toutiao.com/i6766897068138037763/?group_id=6766897068138037763

我们看官网文档中这个地方

Hive分区表和桶表的使用

我们先创建好数据库，以供练习

Hive分区表和桶表的使用

使用数据库

Hive分区表和桶表的使用

我们创建数据表

Hive分区表和桶表的使用

Hive分区表和桶表的使用

我们创建分区表，选取的字段不能是表中存在的字段

Hive分区表和桶表的使用

Hive分区表和桶表的使用

元数据信息

Hive分区表和桶表的使用

Formatted信息

Hive分区表和桶表的使用

那我们加载信息

load data local inpath '/data/hivetest/dept.txt' into table dept_partition partition(bmbh=1);

Hive分区表和桶表的使用

我们查看数据

Hive分区表和桶表的使用

我们看下HDFS上，是目录的形式

Hive分区表和桶表的使用

Hive分区表和桶表的使用

所以我们可以多加载几份数据

Hive分区表和桶表的使用

Hive分区表和桶表的使用

查看数据和HDFS上

Hive分区表和桶表的使用

Hive分区表和桶表的使用

也可以创建二级分区

Hive分区表和桶表的使用

Hive分区表和桶表的使用

载入数据

Hive分区表和桶表的使用

Hive分区表和桶表的使用

查看下数据

Hive分区表和桶表的使用

查看下元数据

Hive分区表和桶表的使用

再看下HDFS

Hive分区表和桶表的使用

Hive分区表和桶表的使用

Hive分区表和桶表的使用

Hive分区表和桶表的使用

我们就可以依据条件查询使用where语句

Hive分区表和桶表的使用

注：分区表可以提高查询的效率。

我们再看这个地方-桶表

Hive分区表和桶表的使用

这个和分区表不一样的地方，选取字段必须是表里的字段

我们准备个员工表

Hive分区表和桶表的使用

Hive分区表和桶表的使用

我们创建下桶表

Hive分区表和桶表的使用

Hive分区表和桶表的使用

我们加载下数据

Hive分区表和桶表的使用

看下HDFS

Hive分区表和桶表的使用

实际在桶表中，我们应该使用另外一种语句

Hive分区表和桶表的使用

运行过程

Hive分区表和桶表的使用

出现了点问题

Hive分区表和桶表的使用

三个节点时间不同步，设定下时间

date -s "2019-12-5 17:50:00"

再执行就可以了

Hive分区表和桶表的使用

查看结果

Hive分区表和桶表的使用

我们看HDFS上

Hive分区表和桶表的使用

我们查看下文件，已经分开了，如果有问题看看你的hive版本是否有这个属性没有打开。hive.enforce.bucketing。

Hive分区表和桶表的使用

注：其中桶表查询还有下面的语句，可以仔细研究下，暂时先放一放，后续学习深入再了解。

Select * from table tablesample(bucket 1 out of 2)

Tablesample是抽样数据，语法tablesample(bucket x out of y)y必须是table总bucket数的倍数或者因子。Hive根据y的大小，决定抽样比例。例如：table总共分为64份，当y=32时，抽取(64/32)2个bucket数据；当y=128时，抽取(64/128)1/2个bucket数据，x表示从哪个bucket开始抽取，例如table总bucket数为32，tablesample(3 out of 16)，表示总共抽取(32/16)2个bucket数据，分别为第3个bucket和第(3+16)19个bucket数据。

posted on 2020-03-20 00:26 那山的狐狸阅读(270) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

导航

统计

随笔 - 214
文章 - 2
评论 - 5
阅读 - 10万

公告

昵称：那山的狐狸
园龄： 10年9个月
粉丝： 6
关注： 4

随笔分类

随笔档案

文章分类

Java学习(1)

阅读排行榜

评论排行榜

最新评论

1. Re:Echart可视化学习（一）
我是新用户，看不到图片正常么
--nickerman
2. Re:Echart可视化学习集合
算是百度唯一能拿得出手的产品
--启明星工作室
3. Re:Servlet初级学习加入数据库操作（一）
你好
--2021侍者
4. Re:Java 简单操作hdfs API
version文件在哪里？
--黄黑皮大佬
5. Re:通过用户日志分析理解数据处理流程
大哥，这篇文章的中的图片呢，失去了灵魂
--极海听雷