2018年11月14日

摘要: 一、对于数据倾斜的发生一般都是一个key对应的数据过大,而导致Task执行过慢,或者内存溢出(OOM),一般是发生在shuffle的时候,比如reduceByKey,groupByKey,sortByKey等,容易产生数据倾斜。 那么针对数据倾斜我们如何解决呢?我们可以首先观看log日志,以为log 阅读全文

posted @ 2018-11-14 13:30 渣渣的pp 阅读(1603) 评论(0) 推荐(0) 编辑

摘要: 对于Job的运行全流程来说我们只需要记住几个特殊的点即可,比如:TextInputFormat、LineRecordreader、partitioner、compareTo、combiner、Groupingcomparator、TextOutputFormat、LineRecordReader。图 阅读全文

posted @ 2018-11-14 10:58 渣渣的pp 阅读(165) 评论(0) 推荐(0) 编辑

摘要: 在hadoop1.0版本以前我们的Mapreduce是被当作资源调度和计算框架来使用的,成为了hadoop运行生态圈的瓶颈,所以在hadoop2.0版本以上引入了yarn的概念,使Mapreduce完全成为分布式计算框架,而Yarn成为了分布式资源调度。虽然mapreduce处理速度很慢,IO操作会 阅读全文

posted @ 2018-11-14 10:44 渣渣的pp 阅读(1027) 评论(0) 推荐(0) 编辑

2018年11月2日

摘要: 大数据中我们常见的组件之一就是hdfs了。hdfs又是hadoop生态圈中必不可少的一个框架,所以我们进入Hadoop就必须要对它有一定的了解。 首先我们都知道hdfs是hadoop生态圈中的分布式文件系统,他存储了我们大数据中的海量数据, 正是因为谷歌的论文的发布,我们才会有了hdfs的产生,伴随 阅读全文

posted @ 2018-11-02 19:13 渣渣的pp 阅读(118) 评论(0) 推荐(0) 编辑

2018年6月29日

摘要: java是一门垃圾回收语言,也就是说程序员不需要手动管理内存分配和回收。我们只需要撸码就可以,然后我们java中的java虚拟机(JVM)按需分配内存,再不需要的时候会自动清理这部分的内存。 JAVA虚拟机会把堆分成两组,用代来表示: 新生代和老生代 新生代:--新实例化的对象分配的空间。新生代空间 阅读全文

posted @ 2018-06-29 11:16 渣渣的pp 阅读(116) 评论(0) 推荐(0) 编辑

摘要: 我们在使用Thread时,在使用线程同步时可能会出现死锁,而死锁产生的原因是: 例: 两个类中各有两个方法,而这四种发放同步,比如顾客与服务员解决“先付款还是后付款”的问题时,就会产生死锁。 死锁产生的条件: 互斥条件 请求保持条件 不可剥夺条件 环路等待 死锁的原因: 资源竞争和进程顺序推进不当 阅读全文

posted @ 2018-06-29 09:07 渣渣的pp 阅读(128) 评论(0) 推荐(0) 编辑

2018年6月28日

摘要: 删除数据表中重复元素的方法一共有两种一种主要运用count关键字,另一个是distinct关键字,下面就详细介绍一下这两种方法。 以user表为例,删除name中的重复元素。 ①count关键字使用: 这一种方法比较麻烦所以不太建议使用。它的主要思路是,首先查询要删除的重复元素,然后删除count( 阅读全文

posted @ 2018-06-28 09:04 渣渣的pp 阅读(167) 评论(0) 推荐(0) 编辑

2018年6月27日

摘要: 1 package com.pp.test; 2 public class Demo2 { 3 public static void main(String[] args) { 4 5 // 运算符: 6 // a:按功能分: 7 // 1.算术运算符 + - * / % ++ -- 8 System.out.println(-3/-... 阅读全文

posted @ 2018-06-27 16:25 渣渣的pp 阅读(349) 评论(0) 推荐(0) 编辑

2018年4月28日

摘要: thinkphp3.2上传文件 阅读全文

posted @ 2018-04-28 11:01 渣渣的pp 阅读(166) 评论(3) 推荐(0) 编辑

摘要: php开发微信公众号 阅读全文

posted @ 2018-04-28 11:00 渣渣的pp 阅读(213) 评论(2) 推荐(0) 编辑