会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
~(',D)=I一<
博客园
|
首页
|
新随笔
|
新文章
|
联系
|
订阅
|
管理
上一页
1
2
3
4
下一页
2020年3月17日
Java 基础 锁
摘要: 滴滴面试,分布式の锁,我:?。故记录 https://www.cnblogs.com/wuhan729/p/8601108.html 单进程的锁 在单进程的系统中,当存在多个线程可以同时改变某个变量(可变共享变量)时,就需要对变量或代码块做同步,使其在修改这种变量时能够线性执行消除并发修改变量(sy
阅读全文
posted @ 2020-03-17 14:31 星不予
阅读(155)
评论(0)
推荐(0)
编辑
2020年3月15日
Spark 累加器使用
摘要: 1.使用foreach碰到了问题 没看过累加器的时候,写了这么个代码,发现map里头foreach完了还是0啊?咋回事啊? 1 def calNrOfEachDataMap(data:RDD[String],neededDataMap:Set[Map[Int,String]]): Map[Map[I
阅读全文
posted @ 2020-03-15 02:18 星不予
阅读(568)
评论(0)
推荐(0)
编辑
2020年3月14日
Spark 宽依赖与窄依赖
摘要: 原始的RDD通过一系列的转换就就形成了DAG,根据RDD之间的依赖关系的不同将DAG划分成不同的Stage(按宽依赖划分Stage) 窄依赖是指父类分区的数据,被子类RDD中的指定的唯一一个分区消费 宽依赖就是子类的分区的数据,要依赖多个父类RDD的分区,由于有Shuffle的存在,只能在paren
阅读全文
posted @ 2020-03-14 21:58 星不予
阅读(737)
评论(0)
推荐(0)
编辑
Spark Persist与Cache checkpoint
摘要: 1.为什么要Cache / persist 由于spark中的RDD都是只读不可变的对象,也就是RDD的每一个transformation操作都会产生一个新的RDD。所以Spark任务中的一个优化原则就是避免创建重复的RDD而尽量复用同一个RDD。 当迭代使用到一个RDD的时候,我们不希望它重新从头
阅读全文
posted @ 2020-03-14 20:47 星不予
阅读(450)
评论(0)
推荐(0)
编辑
2020年2月26日
Hadoop基础【3】 OutputFormat
摘要: InputFormat描述的是MR的输入规范,而OutputFormat描述的是MR的输出规范。目的是设置MR的作业输出格式。 FileOutputFormat包括了FIleOutputFormat,DBOutputFormat,NullOutputFormat,FilterOutputFormat
阅读全文
posted @ 2020-02-26 13:39 星不予
阅读(228)
评论(0)
推荐(0)
编辑
2020年2月25日
Hadoop【2.1】 Shuffle概述
摘要: 在每个maptask的结束,我们拿到的是<K,V>的队列,在Reduce中,输入的是<K,Iterable V>。在中间有一个被称为Shuffle的工作,将Maptask的数据按Key排序。其主要的工作,大体上讲1.完整地从map task端拉取数据到reduce端。2.在跨节点拉取数据时,尽可能地
阅读全文
posted @ 2020-02-25 23:38 星不予
阅读(208)
评论(0)
推荐(0)
编辑
Hadoop基础【1.3】多路径输入 指定Map 自定义输入分片
摘要: 1. 多路径输入 对于一个MR程序来说,再所有情况下都只使用一个Path作为我们的输入路径是不现实的,一般都需要从多个路径下取文件。因此提供了FileInputFormat下的static方法setInputPaths以实现此功能(此例中多个路径使用同一个Mapper)。 1 String inPa
阅读全文
posted @ 2020-02-25 00:06 星不予
阅读(304)
评论(0)
推荐(0)
编辑
2020年2月17日
Java 文件系统与IO流
摘要: 文件系统 java.io中的File类,用于处理文件。 import java.io.File; // 导入File类 File myFile= new File("filepath.txt"); // 指定文件名, win为"path\\filename"", linux是"path/filena
阅读全文
posted @ 2020-02-17 21:12 星不予
阅读(160)
评论(0)
推荐(0)
编辑
2020年2月16日
Hadoop基础【1.2】 InputFormat
摘要: hadoop虽然内置了很多个inputFormat但是,有时候还是不满足我们的一些需求,所以我们需要重写一个类,来实现我们对数据的读取。 public abstract class InputFormat<K, V> { public InputFormat() { } public abstrac
阅读全文
posted @ 2020-02-16 22:18 星不予
阅读(209)
评论(0)
推荐(0)
编辑
Hadoop基础【1.1】 Writeable
摘要: MapReduce由于最耗时的是落盘与通信,所以采用了自定的Writeable的序列化反序列化(在结构化对象与二进制流之间的转换以便于节点通信:压缩过,使得节点之间带宽占用较少,可以快速读写),在Mapper Reducer里头常用的比如LongWriteable Text等等。我们根据不同的需求,
阅读全文
posted @ 2020-02-16 17:19 星不予
阅读(442)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
下一页
公告