随笔分类 - Hadoop

hive常见知识点

摘要：1. Hive 表关联查询，如何解决数据倾斜的问题 1）倾斜原因： map 输出数据按key Hash 的分配到reduce 中，由于key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。（1） key 分布不均匀; （2）业务数据本身的特性; （阅读全文

posted @ 2022-07-13 22:00 景、阅读(274) 评论(0) 推荐(0) 编辑

Hive的数据压缩、Hive的存储格式

摘要：数据压缩作用： 1、Map阶段对数据进行压缩，则可以减少Map和Reduce之间数据的传输量，提高执行效率 2、Reduce阶段的输出结果压缩，可以极大的节省磁盘空间，同时hive可以直接识别压缩文件 -- 操作一：开启Map端压缩 -- 1）开启hive中间传输数据压缩功能 set hive.ex 阅读全文

posted @ 2022-06-12 17:03 景、阅读(390) 评论(0) 推荐(0) 编辑

Hadoop Writable和WritableComparable区别

摘要：Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable1.Writable: 重写write 和 readFields方法，负责读和写 2.WritableComparable 重写write、readFields 和 compare 阅读全文

posted @ 2022-05-27 10:49 景、阅读(37) 评论(0) 推荐(0) 编辑