飞机耳朵 - 博客园

Spark内存和shuffle

摘要： Spark的全排序 ------------------- RDD.sortByKey()内部使用采样方式按照RangePartitioner进行分区。 Spark Shuffle ------------------- 1.Bypass 迂回shuffle 可以使用零拷贝技术实现分区文件的合并。配置属性为: ... 阅读全文

posted @ 2018-06-25 17:32 飞机耳朵阅读(378) 评论(0) 推荐(0)

hive-分析函数

摘要： bitmap -------------- 位图/位映射。 5 hive -------------- 分区表 udtf函数 wordcount lateral view //和udtf配合使用。 order by //数据倾斜 sort by ... 阅读全文

posted @ 2018-06-25 17:30 飞机耳朵阅读(359) 评论(0) 推荐(0)

java-JVM-1

摘要：回顾 -------------- 1、并发库下的重入锁相较于synchronized来讲，cpu资源消耗少。粒度更细，可以控制到共享读锁和独占写锁，底层实现Unsafe对数字的控制实现，这些数字控制都是原子量实现。原子量底层控制实现原理是CAS(CompareAndSwap，比较并交换，反复尝试的过程，而不是将cp... 阅读全文

posted @ 2018-06-25 17:29 飞机耳朵阅读(146) 评论(0) 推荐(0)

java-JVM

摘要： JVM ---------- java virtual machine. java runtime data area . 1.method area 方法区共享 2.java stack 栈区，线程非共享压入stack frame(method frame... 阅读全文

posted @ 2018-06-25 17:28 飞机耳朵阅读(122) 评论(0) 推荐(0)

hive高阶函数和采样-优化

摘要： select a.id, a.month from user_b a union all select b.id, b.day from user_b b; 桶表：和hash partition类似 ============================================= bucket //clustered(id) into 2 buckets ... 阅读全文

posted @ 2018-06-25 17:18 飞机耳朵阅读(353) 评论(0) 推荐(0)

zookeeper搭建

摘要： zookeeper: 分布式协同服务，负责处理分布式框架所产生的一些问题分布式框架：可扩展性透明性高可靠性分布式框架的弊端：不一致性：单个节点数据的缺失，处理数据竞态条件：多个节点同时处理一个只需要一个节点处理的数据死锁：两个节点互相等待对方完成 zk为了解决问题能提供什么服务？名... 阅读全文

posted @ 2018-06-25 17:16 飞机耳朵阅读(131) 评论(0) 推荐(0)

hive常用函数和建表

摘要： 1、分区表：在hdfs中显示为文件夹优化手段之一：避免全表扫描：select * from xxx where province='beijing' 元数据：关系型数据库数据库：文件夹表：文件夹分区：文件夹添加分区： alter table xxx add partition(province='beijing',city='beijing') 动... 阅读全文

posted @ 2018-06-25 17:13 飞机耳朵阅读(357) 评论(0) 推荐(0)

hive常用函数-建表-jdbc

摘要： hive： ================ 数据仓库，用于分析海量数据底层使用hadoop hive一般不支持实务操作，行级更新，必要时候也能支持事务性数据仓库和关系型数据库适用场景：数仓：OLAP 关系型数据库：OLTP //事务 Array： select array[0] from t; Map: select map... 阅读全文

posted @ 2018-06-25 17:11 飞机耳朵阅读(2244) 评论(0) 推荐(0)

hadoop远程调试和配置HA

摘要： join： Map端join //大表+小表，只需要map Reduce端join //大表+大表，需要Map和Reduce //设计组合key和flag //分组对比器 Json： fastJson技术 JSON.parseObject(str) //将string转成jsonObject ... 阅读全文

posted @ 2018-06-25 17:05 飞机耳朵阅读(266) 评论(0) 推荐(0)

hadoop-MR-排序

摘要： mapreduce作业提交流程： 1、配置文件 //输入输出格式(TextInput(output)Format) 2、job.waitforcompletion 3、submit 4、int map = split.size 1)、看文件格式，textFile 判断文件的压缩编解码器(文件名后缀)，如果是压缩... 阅读全文

posted @ 2018-06-25 17:02 飞机耳朵阅读(229) 评论(0) 推荐(0)