随笔分类 - Hadoop
摘要:1. Hive 表关联查询,如何解决数据倾斜的问题 1) 倾斜原因: map 输出数据按key Hash 的分配到reduce 中,由于key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 (1) key 分布不均匀; (2) 业务数据本身的特性; (
阅读全文
摘要:数据压缩作用: 1、Map阶段对数据进行压缩,则可以减少Map和Reduce之间数据的传输量,提高执行效率 2、Reduce阶段的输出结果压缩,可以极大的节省磁盘空间,同时hive可以直接识别压缩文件 -- 操作一:开启Map端压缩 -- 1)开启hive中间传输数据压缩功能 set hive.ex
阅读全文
摘要:Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable1.Writable: 重写write 和 readFields方法,负责读和写 2.WritableComparable 重写write、readFields 和 compare
阅读全文