Hive中文件存储格式ORC与Parquet对比
https://www.pianshen.com/article/34572045595/
ORC、Parquet都是列式存储
Orc (Optimized Row Columnar)是Hive 0.11版里引入的新的存储格式
每个Orc文件由1个或多个stripe组成,每个stripe一般为HDFS的块大小,每一个stripe包含多条记录,这些记录按照列进行独立存储,对应到Parquet中的row group的概念。每个Stripe里有三部分组成,分别是Index Data,Row Data,Stripe Footer:
Parquet文件是以二进制方式存储的,所以是不可以直接读取的,文件中包括该文件的数据和元数据,因此Parquet格式文件是自解析的。
行组(Row Group)、列块(Column Chunk)、页(Page):
Parquet适用Spark impala
Orc适用于MapReduce
-----------专注于实时数仓,大数据存储、计算