摘要: hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limi 阅读全文
posted @ 2019-12-17 12:07 天马流欣 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 如果设置hive.map.aggr为true,hive.groupby.skewindata为true,执行流程如下: 会生成两个job来执行group by,第一个job中,各个map是平均读取分片的,在map阶段对这个分片中的数据根据group by 的key进行局部聚合操作,这里就相当于Com 阅读全文
posted @ 2019-12-17 12:04 天马流欣 阅读(1886) 评论(0) 推荐(0) 编辑
摘要: 直接赋值:其实就是对象的引用(别名)。 浅拷贝(copy):拷贝父对象,不会拷贝对象的内部的子对象。 深拷贝(deepcopy): copy 模块的 deepcopy 方法,完全拷贝了父对象及其子对象。 实例解析 a = {1: [1,2,3]} 1. b = a: 赋值引用,a 和 b 都指向同一 阅读全文
posted @ 2019-12-17 09:59 天马流欣 阅读(292) 评论(0) 推荐(0) 编辑