hive ACID事务得应用场景

Hive的ACID语义可以完成以下使用场景:

1、流数据的接入。许多用户都使用 Apache Flume, Apache Storm, or Apache Kafka 将流式数据导入Hadoop集群。这些工具都是每秒百万行级的数据写入，而Hive只能每十五分钟到一个小时添加一次分区。快速的增加分区会对表中的分区数量形成压力。当然可以事先创建好分区再将数据导入，但这样会引起脏读，而且目录下生成的小文件会对namenode造成很大的压力。而新特性可以很好的解决上述问题。

2、减少维度的变化。减少多维表的变化。

3、数据的更新。INSERT, UPDATE。

4、通过SQL MERGE 批量的更新。

限制条件：

1、默认事务是关闭的，需要设置开启。（hive3.0之后默认创建表就是事务表）

2、表必须是分桶表。

3、目前只支持ORC 的文件格式。参考：ORC File Format存储格式和 ORC file format

4、BEGIN, COMMIT, ROLLBACK 暂时不支持，所有操作自动提交。

5、必须这是事务管理器 org.apache.hadoop.hive.ql.lockmgr.DbTxnManager ，否则事务表无法工作。

6、目前支持快照级别的隔离。就是当一次数据查询时，会提供一个数据一致性的快照。

7、LOAD DATA. 语句目前在事务表中暂时不支持。

posted @ 2023-11-08 19:54 所向披靡zz 阅读(61) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· hive事务得设置

· hive3.0新特性

· Hive ACID笔记

· Hive创建事务表

· Hive数据库中执行更新和删除数据操作

公告

昵称：所向披靡zz
园龄： 5年4个月
粉丝： 5
关注： 22

+加关注

2025年3月

日

一

二

三

四

五

六

hive ACID事务得应用场景

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论