parquet和orc选型以及压缩格式
摘要:Hive表压缩功能 除了直接配置MapReduce压缩功能外,Hive的ORC表和Parquet表直接支持表的压缩属性。 但支持的压缩格式有限,ORC表支持None、Zlib、Snappy压缩,默认为ZLIB压缩。但这3种压缩格式不支持切分,所以适合单个文件不是特别大的场景。使用Zlib压缩率高,但
阅读全文
parquet列存储本身自带压缩 配合snappy或者lzo等可以进行二次压缩
摘要:上传txt文件到hdfs,txt文件大小是74左右。 这里提醒一下,是不是说parquet加lzo可以把数据压缩到这个地步,因为我的测试数据存在大量重复。所以下面使用parquet和lzo的压缩效果特别好。 创建hive表,使用parquet格式存储数据 不可以将txt数据直接加载到parquet的
阅读全文
释放linux内存中的cache缓存
摘要:echo 3 > /proc/sys/vm/drop_caches 记一次 经常用 exp 导出oracle全量数据库,发现linux内存一直在减小没有释放,即使 oracle重启也不行,只有重新启动linux系统才可以。 查看 free 发现 cache过大 , 那么用上述命令即可 释放所有的缓存
阅读全文
java ssh远程服务器并执行多条shell命令
摘要:java ssh远程服务器并执行多条命令 import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import j
阅读全文
java 执行shell命令遇到的坑
摘要:正常来说java调用shell命令就是用 String[] cmdAry = new String[]{"/bin/bash","-c",cmd} Runtime.getRuntime().exec(cmdAry); 实际上就是创建个子进程去执行这个命令。 问题来了: 如果我执行下面这句命令 exp
阅读全文