Hive中文件存储格式ORC与Parquet对比

https://www.pianshen.com/article/34572045595/

ORC、Parquet都是列式存储

Orc (Optimized Row Columnar)是Hive 0.11版里引入的新的存储格式

每个Orc文件由1个或多个stripe组成,每个stripe一般为HDFS的块大小,每一个stripe包含多条记录,这些记录按照列进行独立存储,对应到Parquet中的row group的概念。每个Stripe里有三部分组成,分别是Index Data,Row Data,Stripe Footer:

 

Parquet文件是以二进制方式存储的,所以是不可以直接读取的,文件中包括该文件的数据和元数据,因此Parquet格式文件是自解析的。

行组(Row Group)、列块(Column Chunk)、页(Page):

 

Parquet适用Spark impala

Orc适用于MapReduce

 

posted @ 2021-04-29 17:48  再见傅里叶  阅读(1609)  评论(0编辑  收藏  举报