Hive插入parquet格式进行压缩

创建parquet table :
create table tabname(a int,b int) STORED AS PARQUET;

创建带压缩的parquet table:
create table tabname(a int,b int) STORED AS PARQUET TBLPROPERTIES('parquet.compression'='SNAPPY');

如果原来创建表的时候没有指定压缩,后续可以通过修改表属性的方式添加压缩:
ALTER TABLE tabname SET TBLPROPERTIES ('parquet.compression'='SNAPPY');
或者在写入的时候
set parquet.compression=SNAPPY;

不过只会影响后续入库的数据,原来的数据不会被压缩,需要重跑原来的数据。

采用压缩之后大概可以降低1/3的存储大小。

posted @ 2020-11-19 18:29  醉城、  阅读(2067)  评论(0编辑  收藏  举报