hive的⽂件格式存储对比
第一种:textfile
这种格式下,hive表可以直接load data
第二种:parquet
这种格式下,可以很好的支持impala查询
在sql操作中的时间也比较短
第三种 orc
hive和spark都支持这种格式(按行分块,按列存储)
一般情况下:orc格式用的比较多,
case1:有同学开发时不注意,产出了好多的小文件,这种情况下,
- 如果使用的parquet格式会比较麻烦,需要用sql读取数据,再写回原表中,如果涉及到的任务表较多,会比较难处理,
- 如果用的是orc的格式,有命令可以查接合并,比较方便
ALTER TABLE table_name [PARTITION partition_spec] CONCATENATE;