王昱棋

导航

hive的⽂件格式存储对比

第一种:textfile

这种格式下,hive表可以直接load data

第二种:parquet

这种格式下,可以很好的支持impala查询

在sql操作中的时间也比较短

第三种 orc

hive和spark都支持这种格式(按行分块,按列存储)

一般情况下:orc格式用的比较多,

case1:有同学开发时不注意,产出了好多的小文件,这种情况下,

  • 如果使用的parquet格式会比较麻烦,需要用sql读取数据,再写回原表中,如果涉及到的任务表较多,会比较难处理,
  • 如果用的是orc的格式,有命令可以查接合并,比较方便
    ALTER TABLE table_name [PARTITION partition_spec] CONCATENATE;

     

posted on 2020-08-24 00:29  王昱棋  阅读(124)  评论(0编辑  收藏  举报