12 2019 档案

摘要:漫画叙述B+树和B-树,很值得看! 这一次我们来介绍 B+ 树。 一个m阶的B树具有如下几个特征: 1.根结点至少有两个子女。 2.每个中间节点都包含k-1个元素和k个孩子,其中 m/2 <= k <= m 3.每一个叶子节点都包含k-1个元素,其中 m/2 <= k <= m 4.所有的叶子结点都 阅读全文
posted @ 2019-12-31 22:10 天马流欣 阅读(275) 评论(0) 推荐(0) 编辑
摘要:hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limi 阅读全文
posted @ 2019-12-17 12:07 天马流欣 阅读(146) 评论(0) 推荐(0) 编辑
摘要:如果设置hive.map.aggr为true,hive.groupby.skewindata为true,执行流程如下: 会生成两个job来执行group by,第一个job中,各个map是平均读取分片的,在map阶段对这个分片中的数据根据group by 的key进行局部聚合操作,这里就相当于Com 阅读全文
posted @ 2019-12-17 12:04 天马流欣 阅读(1898) 评论(0) 推荐(0) 编辑
摘要:直接赋值:其实就是对象的引用(别名)。 浅拷贝(copy):拷贝父对象,不会拷贝对象的内部的子对象。 深拷贝(deepcopy): copy 模块的 deepcopy 方法,完全拷贝了父对象及其子对象。 实例解析 a = {1: [1,2,3]} 1. b = a: 赋值引用,a 和 b 都指向同一 阅读全文
posted @ 2019-12-17 09:59 天马流欣 阅读(295) 评论(0) 推荐(0) 编辑
摘要:什么是宽窄依赖,及特殊join算子,join时何时产生shuffle,何时不产生shuffle 转载从0到1哦 发布于2018-11-11 15:39:18 阅读数 696 收藏 展开 1、 什么是宽窄依赖,宽依赖: 发生shuffle时,一定会产生宽依赖,宽依赖是一个RDD中的一个Partitio 阅读全文
posted @ 2019-12-10 21:48 天马流欣 阅读(880) 评论(0) 推荐(0) 编辑
摘要:Python工作流-Airflow @POST· 2017-04-06 20:16 · 12 min read Apache Airflow 是一个用于编排复杂计算工作流和数据处理流水线的开源工具。 如果您发现自己运行的是执行时间超长的 cron 脚本任务,或者是大数据的批处理任务,Airflow可 阅读全文
posted @ 2019-12-04 13:39 天马流欣 阅读(6922) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示