摘要: 常用的存储格式 1.textfile Hive数据表的默认格式,数据不做压缩,磁盘开销大,数据解析开销大。存储方式:行存储。 可以使用Gzip压缩算法,但压缩后的文件不支持split。 在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此反序列化开销会比SequenceFile高几十倍。 阅读全文
posted @ 2018-12-05 16:58 才华充电中 阅读(2987) 评论(0) 推荐(0) 编辑
摘要: 基础数据类型与java数据类型一致 整型 TINYINT — 微整型,只占用1个字节,只能存储0-255的整数。 SMALLINT– 小整型,占用2个字节,存储范围–32768 到 32767。 INT– 整型,占用4个字节,存储范围-2147483648到2147483647。 BIGINT– 长 阅读全文
posted @ 2018-12-05 16:25 才华充电中 阅读(17365) 评论(0) 推荐(0) 编辑
摘要: 1.SQL语句大写 因为oracle总是先解析SQL语句,把小写的字母转换成大写的再执行。 2.表别名 多表join时,尽量使用表别名,同时把表别名前缀于每一列上,减少解析的时间及由列歧义引起的语法错误 3.from从右到左解析表名 from子句中写在最后的表(基础表也称为驱动表,driving t 阅读全文
posted @ 2018-12-05 16:04 才华充电中 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 1.数据过滤 尽量先过滤数据,减少每个阶段的数据量,然后再进行join 2.分区 要合理使用分区,hive分区数据文件是放在不同目录下的 3.执行顺序 hive总是按照从左到右的顺序执行语句 4.job任务数 hive会对每次join启动一个mapreduce任务 当对3个或者更多个表进行join连 阅读全文
posted @ 2018-12-05 15:29 才华充电中 阅读(1796) 评论(0) 推荐(1) 编辑
摘要: #reduce的输出是否压缩 set mapred.output.compress=true; #控制是否将hive中最后的结果进行压缩的。如果将该参数设置为true的时候,文件类型一般会选择SequenceFile。 set hive.exec.compress.output=true; #决定了 阅读全文
posted @ 2018-12-05 15:11 才华充电中 阅读(1507) 评论(0) 推荐(0) 编辑