摘要: Hive表压缩功能 除了直接配置MapReduce压缩功能外,Hive的ORC表和Parquet表直接支持表的压缩属性。 但支持的压缩格式有限,ORC表支持None、Zlib、Snappy压缩,默认为ZLIB压缩。但这3种压缩格式不支持切分,所以适合单个文件不是特别大的场景。使用Zlib压缩率高,但 阅读全文
posted @ 2021-06-23 17:06 菜霸 阅读(1242) 评论(0) 推荐(0) 编辑
摘要: 上传txt文件到hdfs,txt文件大小是74左右。 这里提醒一下,是不是说parquet加lzo可以把数据压缩到这个地步,因为我的测试数据存在大量重复。所以下面使用parquet和lzo的压缩效果特别好。 创建hive表,使用parquet格式存储数据 不可以将txt数据直接加载到parquet的 阅读全文
posted @ 2021-06-23 15:34 菜霸 阅读(1837) 评论(0) 推荐(1) 编辑