2018 年 12月 5 日随笔档案 - 才华充电中

2018年12月5日

摘要：常用的存储格式 1.textfile Hive数据表的默认格式，数据不做压缩，磁盘开销大，数据解析开销大。存储方式：行存储。可以使用Gzip压缩算法，但压缩后的文件不支持split。在反序列化过程中，必须逐个字符判断是不是分隔符和行结束符，因此反序列化开销会比SequenceFile高几十倍。阅读全文

posted @ 2018-12-05 16:58 才华充电中阅读(2987) 评论(0) 推荐(0) 编辑

Hive之数据类型

摘要：基础数据类型与java数据类型一致整型 TINYINT — 微整型，只占用1个字节，只能存储0-255的整数。 SMALLINT– 小整型，占用2个字节，存储范围–32768 到 32767。 INT– 整型，占用4个字节，存储范围-2147483648到2147483647。 BIGINT– 长阅读全文

posted @ 2018-12-05 16:25 才华充电中阅读(17365) 评论(0) 推荐(0) 编辑

oracle之语句调优

摘要： 1.SQL语句大写因为oracle总是先解析SQL语句，把小写的字母转换成大写的再执行。 2.表别名多表join时，尽量使用表别名，同时把表别名前缀于每一列上，减少解析的时间及由列歧义引起的语法错误 3.from从右到左解析表名 from子句中写在最后的表(基础表也称为驱动表,driving t 阅读全文

posted @ 2018-12-05 16:04 才华充电中阅读(331) 评论(0) 推荐(0) 编辑

Hive之语句调优

摘要： 1.数据过滤尽量先过滤数据，减少每个阶段的数据量，然后再进行join 2.分区要合理使用分区，hive分区数据文件是放在不同目录下的 3.执行顺序 hive总是按照从左到右的顺序执行语句 4.job任务数 hive会对每次join启动一个mapreduce任务当对3个或者更多个表进行join连阅读全文

posted @ 2018-12-05 15:29 才华充电中阅读(1796) 评论(0) 推荐(1) 编辑

Hive之常用参数

摘要： #reduce的输出是否压缩 set mapred.output.compress=true; #控制是否将hive中最后的结果进行压缩的。如果将该参数设置为true的时候，文件类型一般会选择SequenceFile。 set hive.exec.compress.output=true; #决定了阅读全文

posted @ 2018-12-05 15:11 才华充电中阅读(1507) 评论(0) 推荐(0) 编辑

才华充电中

君子藏器于身，待时而动