posts - 88,comments - 7,views - 22万

随笔分类 -  大数据

parquet和orc选型以及压缩格式
摘要:Hive表压缩功能 除了直接配置MapReduce压缩功能外,Hive的ORC表和Parquet表直接支持表的压缩属性。 但支持的压缩格式有限,ORC表支持None、Zlib、Snappy压缩,默认为ZLIB压缩。但这3种压缩格式不支持切分,所以适合单个文件不是特别大的场景。使用Zlib压缩率高,但 阅读全文
posted @ 2021-06-23 17:06 菜霸 编辑
parquet列存储本身自带压缩 配合snappy或者lzo等可以进行二次压缩
摘要:上传txt文件到hdfs,txt文件大小是74左右。 这里提醒一下,是不是说parquet加lzo可以把数据压缩到这个地步,因为我的测试数据存在大量重复。所以下面使用parquet和lzo的压缩效果特别好。 创建hive表,使用parquet格式存储数据 不可以将txt数据直接加载到parquet的 阅读全文
posted @ 2021-06-23 15:34 菜霸 编辑
Hbase的namespace命令操作
摘要:一、什么是namespace 在RDBMS中有database的概念,用来对table进行分组,那么在HBase中当表比较多的时候如何对表分组呢,就是namespace,可以简单的把namespace理解为RDBMS中的database。 二、namespace相关操作 内置的namespace H 阅读全文
posted @ 2019-06-06 17:16 菜霸 编辑
Hive表数据同步到es
摘要:1.首先服务器节点,进入到对应的数据库。2. 然后找到要同步的表,show create table + 表名查看一下或者自己可以新建一个表,用来测试原表,如下 其中 hdfs 地址可以通过当前数据库其他表结构获取hdfs路径。 如果新建的表没有数据可以采用2种方式加载数据 load data lo 阅读全文
posted @ 2019-05-23 13:04 菜霸 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示