12 2018 档案
摘要:数据倾斜 数据倾斜概念 在做计算的时候,数据的分散度不够(数据的Key分布不均),导致数据分布在一台或几台机器计算 症状:典型的现象就是数据reduce到99%很久不动了 数据倾斜原因 总原因:key分布不均 业务数据的特点(数据的幂律分布) 人为建表的疏忽 join、group by、count
阅读全文
摘要:Hive优化之谓词下推 解释 Hive谓词下推(Predicate pushdown) 1. 关系型数据库借鉴而来,关系型数据中谓词下推到外部数据库用以减少数据传输 2. 基本思想:尽可能早的处理表达式 3. 属于逻辑优化,优化器将谓词过滤下推到数据源,使物理执行跳过无关数据 4. 参数打开设置:h
阅读全文