2018年6月25日

Spark内存和shuffle

摘要: Spark的全排序 ------------------- RDD.sortByKey()内部使用采样方式按照RangePartitioner进行分区。 Spark Shuffle ------------------- 1.Bypass 迂回shuffle 可以使用零拷贝技术实现分区文件的合并。 配置属性为: ... 阅读全文

posted @ 2018-06-25 17:32 飞机耳朵 阅读(348) 评论(0) 推荐(0) 编辑

hive-分析函数

摘要: bitmap -------------- 位图/位映射。 5 hive -------------- 分区表 udtf函数 wordcount lateral view //和udtf配合使用。 order by //数据倾斜 sort by ... 阅读全文

posted @ 2018-06-25 17:30 飞机耳朵 阅读(347) 评论(0) 推荐(0) 编辑

java-JVM-1

摘要: 回顾 -------------- 1、并发库下的重入锁 相较于synchronized来讲,cpu资源消耗少。粒度更细,可以控制到共享读锁和 独占写锁,底层实现Unsafe对数字的控制实现,这些数字控制都是原子量实现。 原子量底层控制实现原理是CAS(CompareAndSwap,比较并交换,反复尝试的过程, 而不是将cp... 阅读全文

posted @ 2018-06-25 17:29 飞机耳朵 阅读(136) 评论(0) 推荐(0) 编辑

java-JVM

摘要: JVM ---------- java virtual machine. java runtime data area . 1.method area 方法区 共享 2.java stack 栈区, 线程 非共享 压入stack frame(method frame... 阅读全文

posted @ 2018-06-25 17:28 飞机耳朵 阅读(111) 评论(0) 推荐(0) 编辑

hive高阶函数和采样-优化

摘要: select a.id, a.month from user_b a union all select b.id, b.day from user_b b; 桶表:和hash partition类似 ============================================= bucket //clustered(id) into 2 buckets ... 阅读全文

posted @ 2018-06-25 17:18 飞机耳朵 阅读(341) 评论(0) 推荐(0) 编辑

zookeeper搭建

摘要: zookeeper: 分布式协同服务,负责处理分布式框架所产生的一些问题 分布式框架: 可扩展性 透明性 高可靠性 分布式框架的弊端: 不一致性:单个节点数据的缺失,处理数据 竞态条件:多个节点同时处理一个只需要一个节点处理的数据 死锁: 两个节点互相等待对方完成 zk为了解决问题能提供什么服务? 名... 阅读全文

posted @ 2018-06-25 17:16 飞机耳朵 阅读(128) 评论(0) 推荐(0) 编辑

hive常用函数和建表

摘要: 1、分区表: 在hdfs中显示为文件夹 优化手段之一:避免全表扫描:select * from xxx where province='beijing' 元数据:关系型数据库 数据库:文件夹 表:文件夹 分区:文件夹 添加分区: alter table xxx add partition(province='beijing',city='beijing') 动... 阅读全文

posted @ 2018-06-25 17:13 飞机耳朵 阅读(339) 评论(0) 推荐(0) 编辑

hive常用函数-建表-jdbc

摘要: hive: ================ 数据仓库,用于分析海量数据 底层使用hadoop hive一般不支持实务操作,行级更新,必要时候也能支持事务性 数据仓库和关系型数据库适用场景: 数仓:OLAP 关系型数据库:OLTP //事务 Array: select array[0] from t; Map: select map... 阅读全文

posted @ 2018-06-25 17:11 飞机耳朵 阅读(1420) 评论(0) 推荐(0) 编辑

hadoop远程调试和配置HA

摘要: join: Map端join //大表+小表,只需要map Reduce端join //大表+大表,需要Map和Reduce //设计组合key和flag //分组对比器 Json: fastJson技术 JSON.parseObject(str) //将string转成jsonObject ... 阅读全文

posted @ 2018-06-25 17:05 飞机耳朵 阅读(248) 评论(0) 推荐(0) 编辑

hadoop-MR-排序

摘要: mapreduce作业提交流程: 1、配置文件 //输入输出格式(TextInput(output)Format) 2、job.waitforcompletion 3、submit 4、int map = split.size 1)、看文件格式,textFile 判断文件的压缩编解码器(文件名后缀),如果是压缩... 阅读全文

posted @ 2018-06-25 17:02 飞机耳朵 阅读(216) 评论(0) 推荐(0) 编辑

导航