Hive的数据压缩、Hive的存储格式

数据压缩
作用：
    1、Map阶段对数据进行压缩，则可以减少Map和Reduce之间数据的传输量，提高执行效率
    2、Reduce阶段的输出结果压缩，可以极大的节省磁盘空间，同时hive可以直接识别压缩文件

-- 操作一：开启Map端压缩
-- 1）开启hive中间传输数据压缩功能
set hive.exec.compress.intermediate=true;

--2）开启mapreduce中map输出压缩功能
set mapreduce.map.output.compress=true;

--3）设置mapreduce中map输出数据的压缩方式为snappy
set mapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec;


-- 操作二：开启Reduce端压缩
-- 1）开启hive最终输出数据压缩功能
set hive.exec.compress.output=true;

-- 2）开启mapreduce最终输出数据压缩
set mapreduce.output.fileoutputformat.compress=true;

-- 3）设置mapreduce最终数据输出压缩方式为snappy
set mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;

-- 4）设置mapreduce最终数据输出压缩为块压缩
set mapreduce.output.fileoutputformat.compress.type=BLOCK;

备注：在实际应用中几乎所有的原始表数据都要开启压缩，这个是一个最常规的调优手段之一

存储格式
1、在之前的操作中，给Hive表文件使用的存储格式都是文本格式（TextFile）
2、除此之外，Hive还可以支持其他的存储格式，使用合适的存储格式可以减少磁盘的占用量
3、Hive支持的存储格式分类：
    行式存储:
       1）数据一行行存储，同一行的数据在磁盘上是连续存放的
       2）代表：TextFile（默认），SequnceFile
       3）优缺点：
           优点：
               1、TextFile开发者可以直接读懂
               2、select * from 表 where id = 1； 使用该方式来查询效率高
           缺点：
               1、TextFile源文件有多大，就会占用多大空间，没有优化数据存储
               2、select name from 表； 使用该方式来查询效率低
　　列式存储：
       1）数据一列列存储，同一列的数据在磁盘上是连续存放的
       2）代表：ORC，Parquet
        优点：
               1、ORC存储格式自带压缩，可以极大的节省磁盘空间
               2、select name from 表； 列查询，使用该方式来查询效率高
        缺点：
               1、ORC存储，查询时需要解压
               2、select * from 表 where id = 1； 列查询，使用该方式来查询效率低

     结论是：在大数据分析中，都用列式存储

-- （1）创建表，存储数据格式为TEXTFILE
create table log_text(
    id          string,
    user_id     string,
    city_id     string
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
 STORED AS TEXTFILE; //创建存储数据格式为：TextFile
-- TextFile格式不会对文件的存储容量进行任何的调整

-- （2）创建表，存储数据格式为ORC
create table log_orc(
    id          string,
    user_id     string,
    city_id     string
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
  STORED AS orc; //创建存储数据格式为：orc  不区分大小写

ORC格式存储的表不能通过load来加载数据，因为ORC格式的调整需要执行MR，需要借助中间表，查询出数据在导入到ORC表
insert into log_orc select * from log_text;

-- （3） 创建表，存储数据格式为PARQUET
create table log_parquet(
　　id　　string,
　　user_id　　string,
　　city_id　　string
) row format delimited fields terminated by '\t'
stored as parquet;
PARQUET和ORC类似，需要借助中间表，查询出数据在导入到log_parquet表中

存储文件的压缩比： ORC > Parquet > TextFile
存储文件的查询速度： ORC > TextFile > Parquet

存储 + 压缩
ORC支持三种压缩：ZLIB,SNAPPY,NONE。最后一种就是不压缩，orc默认采用的是ZLIB压缩
　　存储格式只是决定数据在硬盘上摆放方式（索引和数据的布局）
　　压缩是通过某个算法将数据量减少（11111111100000000000----> 1010）
    ORC + ZLIB （默认） 使用在ODS层
    ORC + SNAPPY　　　　DW层（DWD DWB DWS）
    ORC + BZIP2

    PARQUET + ZIB
    PARQUET + SNAPPY

-- orc + snappy
create table log_orc_snappy (
    id          string,
    user_id 　　 string,
    city_id     string
)
 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
 STORED AS orc -- 存储格式
 tblproperties ('orc.compress' = 'snappy'); -- 压缩方式

insert into log_orc_snappy select * from log_text;

posted @ 2022-06-12 17:03 景、阅读(318) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Hive的数据压缩、Hive的存储格式

公告