随笔分类 -  Hive优化

动态分区
摘要:Hive动态分区 应用场景: 不确定分区数量,数据量也不是很大,使用动态分区 动态分区,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 Hive的动态分区,其实就是把静态分区中的分区值设置为动态的值 insert overwrite table dynamic_ partition par 阅读全文

posted @ 2022-06-07 19:08 唯一的Dove 阅读(288) 评论(0) 推荐(0) 编辑

小文件合并
摘要:Hive 自动合并小文件可以减轻 NameNode 的压力。数据量大可以有更好的压缩效率。并且后续处理这些数据时,任务的启动速度会加快。 但是配置稍微复杂,没有一个能用所有引擎的参数。 小文件的判断 如果一个 job 结束后,生成的文件的平均大小 小于 参数 hive.merge.smallfile 阅读全文

posted @ 2022-06-07 17:00 唯一的Dove 阅读(299) 评论(0) 推荐(0) 编辑

数据倾斜
摘要:数据倾斜的定义 数据倾斜是指在并行进行数据处理的时候,由于单个partition的数据显著多余其他部分,分布不均匀,导致大量数据集中分布到一台或者某几台计算节点上,使得该部分的处理速度远低于平均计算速度,成为整个数据集处理的瓶颈,从而影响整体计算性能。 几种数据倾斜的解决方案 1、空值引发的数据倾斜 阅读全文

posted @ 2022-06-07 16:46 唯一的Dove 阅读(266) 评论(0) 推荐(0) 编辑

Hive优化
摘要:#Hive性能优化 影响Hive效率的因素:数据倾斜,数据冗余,Job或I/O过多,MapReduce分配不合理 ###优化方法 数据倾斜 数据倾斜的定义 数据倾斜是指在并行进行数据处理的时候,由于单个partition的数据显著多余其他部分,分布不均匀,导致大量数据集中分布到一台或者某几台计算节点 阅读全文

posted @ 2022-06-07 16:33 唯一的Dove 阅读(102) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示