12 2018 档案

摘要:数据倾斜 数据倾斜概念 在做计算的时候,数据的分散度不够(数据的Key分布不均),导致数据分布在一台或几台机器计算 症状:典型的现象就是数据reduce到99%很久不动了 数据倾斜原因 总原因:key分布不均 业务数据的特点(数据的幂律分布) 人为建表的疏忽 join、group by、count 阅读全文
posted @ 2018-12-22 22:23 俊学之道 阅读(1111) 评论(0) 推荐(0) 编辑
摘要:Hive优化之谓词下推 解释 Hive谓词下推(Predicate pushdown) 1. 关系型数据库借鉴而来,关系型数据中谓词下推到外部数据库用以减少数据传输 2. 基本思想:尽可能早的处理表达式 3. 属于逻辑优化,优化器将谓词过滤下推到数据源,使物理执行跳过无关数据 4. 参数打开设置:h 阅读全文
posted @ 2018-12-03 10:44 俊学之道 阅读(6207) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示