天马流欣

2019年12月17日

摘要： hive.optimize.cp=true：列裁剪hive.optimize.prunner：分区裁剪hive.limit.optimize.enable=true：优化LIMIT n语句hive.limit.row.max.size=1000000：hive.limit.optimize.limi 阅读全文

posted @ 2019-12-17 12:07 天马流欣阅读(162) 评论(0) 推荐(0)

hive.groupby.skewindata为

摘要：如果设置hive.map.aggr为true,hive.groupby.skewindata为true，执行流程如下：会生成两个job来执行group by，第一个job中，各个map是平均读取分片的，在map阶段对这个分片中的数据根据group by 的key进行局部聚合操作，这里就相当于Com 阅读全文

posted @ 2019-12-17 12:04 天马流欣阅读(1934) 评论(0) 推荐(0)

python直接赋值、浅拷贝与深拷贝的区别解析

摘要：直接赋值：其实就是对象的引用（别名）。浅拷贝(copy)：拷贝父对象，不会拷贝对象的内部的子对象。深拷贝(deepcopy)： copy 模块的 deepcopy 方法，完全拷贝了父对象及其子对象。实例解析 a = {1: [1,2,3]} 1. b = a: 赋值引用，a 和 b 都指向同一阅读全文

posted @ 2019-12-17 09:59 天马流欣阅读(321) 评论(0) 推荐(0)

2019年12月10日

join shuffle

摘要：什么是宽窄依赖，及特殊join算子，join时何时产生shuffle，何时不产生shuffle 转载从0到1哦发布于2018-11-11 15:39:18 阅读数 696 收藏展开 1、什么是宽窄依赖，宽依赖：发生shuffle时，一定会产生宽依赖，宽依赖是一个RDD中的一个Partitio 阅读全文

posted @ 2019-12-10 21:48 天马流欣阅读(908) 评论(0) 推荐(0)

2019年12月4日

Python工作流-Airflow

摘要： Python工作流-Airflow @POST· 2017-04-06 20:16 · 12 min read Apache Airflow 是一个用于编排复杂计算工作流和数据处理流水线的开源工具。如果您发现自己运行的是执行时间超长的 cron 脚本任务，或者是大数据的批处理任务，Airflow可阅读全文

posted @ 2019-12-04 13:39 天马流欣阅读(7088) 评论(0) 推荐(1)

2019年11月18日

【JAVA基础语法】(一)Arrays.asList的使用

摘要： Arrays.asList的作用是将数组转化为list，一般是用于在初始化的时候，设置几个值进去，简化代码，省去add的部分。示例： List<String> ebsCodes = Arrays.asList("USERNAME","REAP","NLS"); 也可以使数组[但是数组类型不能是（b 阅读全文

posted @ 2019-11-18 09:43 天马流欣阅读(376) 评论(0) 推荐(0)

Java中的数组和List

摘要：一.数组Array 1.数组在内存中是连续存储的，所以它的索引速度是非常的快，而且赋值与修改元素也很简单2.声明数组的时候，必须同时指明数组的长度，数组的长度过长，会造成内存浪费，数组和长度过短，会造成数据溢出的错误。3. 数组只能存放类型一样的数据（基本类型/引用类型）二.集合Collectio 阅读全文

posted @ 2019-11-18 09:41 天马流欣阅读(5341) 评论(0) 推荐(1)

集合选择

摘要：阅读全文

posted @ 2019-11-18 09:33 天马流欣阅读(157) 评论(0) 推荐(0)

ArrayList和LinkedList区别

摘要： ArrayList和LinkedList都实现了List接口，他们有以下的不同点：ArrayList是基于索引的数据接口，它的底层是数组。它可以以O(1)时间复杂度对元素进行随机访问。与此对应，LinkedList是以元素列表的形式存储它的数据，每一个元素都和它的前一个和后一个元素链接在一起，在这种阅读全文

posted @ 2019-11-18 09:29 天马流欣阅读(589) 评论(0) 推荐(0)

Array和ArrayList区别

摘要：下面列出了Array和ArrayList的不同点：Array可以包含基本类型和对象类型，ArrayList只能包含对象类型。Array大小是固定的，ArrayList的大小是动态变化的。ArrayList提供了更多的方法和特性，比如：addAll()，removeAll()，iterator()等等阅读全文

posted @ 2019-11-18 09:28 天马流欣阅读(5210) 评论(0) 推荐(0)

公告