摘要: 源表数据记录数:60000000第一步:创建三种文件类型的表,建表语法参考Hive文件存储格式Sql代码TextFile 1 set hive.exec.compress.output=true; 2 3 set mapred.output.compress=true; 4 5 set ... 阅读全文
posted @ 2015-12-11 00:52 成都笨笨 阅读(1285) 评论(0) 推荐(0) 编辑
摘要: 先介绍下Orc的文件格式,截一张官方的图:可以看到每个Orc文件由1个或多个stripe组成,每个stripe250MB大小,这个Stripe实际相当于之前的rcfile里的RowGroup概念,不过大小由4MB->250MB,这样应该能提升顺序读的吞吐率。每个Stripe里有三部分组成,分别是... 阅读全文
posted @ 2015-12-11 00:22 成都笨笨 阅读(743) 评论(0) 推荐(0) 编辑
摘要: RCFile(RecordColumnarFile)存储结构遵循的是“先水平划分,再垂直划分”的设计理念,这个想法来源于PAX。它结合了行存储和列存储的优点:首先,RCFile保证同一行的数据位于同一节点,因此元组重构的开销很低;其次,像列存储一样,RCFile能够利用列维度的数据压缩,并且能跳... 阅读全文
posted @ 2015-12-11 00:11 成都笨笨 阅读(3456) 评论(0) 推荐(1) 编辑
摘要: Hive的三种文件格式:TEXTFILE、SEQUENCEFILE、RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把数据划分成N个rowgroup,在rowgroup中对每个列分别进行存储。另:Hive能支持自定义格... 阅读全文
posted @ 2015-12-11 00:00 成都笨笨 阅读(3837) 评论(0) 推荐(0) 编辑