| | | | |

2020年3月17日

摘要：滴滴面试，分布式の锁，我：？。故记录 https://www.cnblogs.com/wuhan729/p/8601108.html 单进程的锁在单进程的系统中，当存在多个线程可以同时改变某个变量（可变共享变量）时，就需要对变量或代码块做同步，使其在修改这种变量时能够线性执行消除并发修改变量（sy 阅读全文

posted @ 2020-03-17 14:31 星不予阅读(155) 评论(0) 推荐(0) 编辑

2020年3月15日

Spark 累加器使用

摘要： 1.使用foreach碰到了问题没看过累加器的时候，写了这么个代码，发现map里头foreach完了还是0啊？咋回事啊？ 1 def calNrOfEachDataMap(data:RDD[String],neededDataMap:Set[Map[Int,String]]): Map[Map[I 阅读全文

posted @ 2020-03-15 02:18 星不予阅读(568) 评论(0) 推荐(0) 编辑

2020年3月14日

Spark 宽依赖与窄依赖

摘要：原始的RDD通过一系列的转换就就形成了DAG，根据RDD之间的依赖关系的不同将DAG划分成不同的Stage（按宽依赖划分Stage）窄依赖是指父类分区的数据，被子类RDD中的指定的唯一一个分区消费宽依赖就是子类的分区的数据，要依赖多个父类RDD的分区，由于有Shuffle的存在，只能在paren 阅读全文

posted @ 2020-03-14 21:58 星不予阅读(737) 评论(0) 推荐(0) 编辑

Spark Persist与Cache checkpoint

摘要： 1.为什么要Cache / persist 由于spark中的RDD都是只读不可变的对象，也就是RDD的每一个transformation操作都会产生一个新的RDD。所以Spark任务中的一个优化原则就是避免创建重复的RDD而尽量复用同一个RDD。当迭代使用到一个RDD的时候，我们不希望它重新从头阅读全文

posted @ 2020-03-14 20:47 星不予阅读(450) 评论(0) 推荐(0) 编辑

2020年2月26日

Hadoop基础【3】 OutputFormat

摘要： InputFormat描述的是MR的输入规范，而OutputFormat描述的是MR的输出规范。目的是设置MR的作业输出格式。 FileOutputFormat包括了FIleOutputFormat，DBOutputFormat，NullOutputFormat，FilterOutputFormat 阅读全文

posted @ 2020-02-26 13:39 星不予阅读(228) 评论(0) 推荐(0) 编辑

2020年2月25日

Hadoop【2.1】 Shuffle概述

摘要：在每个maptask的结束，我们拿到的是<K,V>的队列，在Reduce中，输入的是<K,Iterable V>。在中间有一个被称为Shuffle的工作，将Maptask的数据按Key排序。其主要的工作，大体上讲1.完整地从map task端拉取数据到reduce端。2.在跨节点拉取数据时，尽可能地阅读全文

posted @ 2020-02-25 23:38 星不予阅读(208) 评论(0) 推荐(0) 编辑

Hadoop基础【1.3】多路径输入指定Map 自定义输入分片

摘要： 1. 多路径输入对于一个MR程序来说，再所有情况下都只使用一个Path作为我们的输入路径是不现实的，一般都需要从多个路径下取文件。因此提供了FileInputFormat下的static方法setInputPaths以实现此功能（此例中多个路径使用同一个Mapper）。 1 String inPa 阅读全文

posted @ 2020-02-25 00:06 星不予阅读(304) 评论(0) 推荐(0) 编辑

2020年2月17日

Java 文件系统与IO流

摘要：文件系统 java.io中的File类，用于处理文件。 import java.io.File; // 导入File类 File myFile= new File("filepath.txt"); // 指定文件名, win为"path\\filename"", linux是"path/filena 阅读全文

posted @ 2020-02-17 21:12 星不予阅读(160) 评论(0) 推荐(0) 编辑

2020年2月16日

Hadoop基础【1.2】 InputFormat

摘要： hadoop虽然内置了很多个inputFormat但是，有时候还是不满足我们的一些需求，所以我们需要重写一个类，来实现我们对数据的读取。 public abstract class InputFormat<K, V> { public InputFormat() { } public abstrac 阅读全文

posted @ 2020-02-16 22:18 星不予阅读(209) 评论(0) 推荐(0) 编辑

Hadoop基础【1.1】 Writeable

摘要： MapReduce由于最耗时的是落盘与通信，所以采用了自定的Writeable的序列化反序列化（在结构化对象与二进制流之间的转换以便于节点通信：压缩过，使得节点之间带宽占用较少，可以快速读写），在Mapper Reducer里头常用的比如LongWriteable Text等等。我们根据不同的需求，阅读全文

posted @ 2020-02-16 17:19 星不予阅读(442) 评论(0) 推荐(0) 编辑