随笔分类 -  Hadoop

摘要:1. Hive 表关联查询,如何解决数据倾斜的问题 1) 倾斜原因: map 输出数据按key Hash 的分配到reduce 中,由于key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 (1) key 分布不均匀; (2) 业务数据本身的特性; ( 阅读全文
posted @ 2022-07-13 22:00 景、 阅读(274) 评论(0) 推荐(0) 编辑
摘要:数据压缩作用: 1、Map阶段对数据进行压缩,则可以减少Map和Reduce之间数据的传输量,提高执行效率 2、Reduce阶段的输出结果压缩,可以极大的节省磁盘空间,同时hive可以直接识别压缩文件 -- 操作一:开启Map端压缩 -- 1)开启hive中间传输数据压缩功能 set hive.ex 阅读全文
posted @ 2022-06-12 17:03 景、 阅读(390) 评论(0) 推荐(0) 编辑
摘要:Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable1.Writable: 重写write 和 readFields方法,负责读和写 2.WritableComparable 重写write、readFields 和 compare 阅读全文
posted @ 2022-05-27 10:49 景、 阅读(37) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示