HIVE之存储

  • Hive支持的存储格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET

  • TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的;ORC和PARQUET是基于列式存储的

    • 行存储的特点:查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快

    • 列存储的特点:因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法

  • TextFile格式:默认格式,数据不做压缩,磁盘开销大,数据解析开销大

  • Parquet文件是以二进制方式存储的,所以是不可以直接读取的,文件中包括该文件的数据和元数据,因此Parquet格式文件是自解析的

posted @ 2019-08-26 10:01  北漂屌丝  阅读(224)  评论(0编辑  收藏  举报