摘要:
版权声明:本文为博主原创文章,未经博主允许不得转载。作者:HaiziS 昨晚听了王家林老师的Spark IMF传奇行动第22课:RDD的依赖关系彻底解密,笔记如下: 1,窄依赖是指每个父RDD的一个Partition最多被子RDD的一个Partition所使用,例如map、filter、union等
阅读全文
posted @ 2016-01-30 11:51
HaiziS
阅读(265)
推荐(0)
摘要:
版权声明:本文为博主原创文章,未经博主允许不得转载。作者:HaiziS 昨晚听了王家林老师的Spark IMF传奇行动第21课:从Spark架构中透视Job,笔记如下: 默认一个worker有一个executor,也可以设置多个,当cpu利用不足时。 并行度也是被继承的 当Spark集群启动的时候,
阅读全文
posted @ 2016-01-28 23:29
HaiziS
阅读(279)
推荐(0)
摘要:
版权声明:本文为博主原创文章,未经博主允许不得转载。作者:HaiziS今晚听了王家林老师的Spark IMF传奇行动第20课:top N,作业是:scala写topGroup,且对组名key排序代码如下:def main(args: Array[String]){ val conf = new...
阅读全文
posted @ 2016-01-26 00:07
HaiziS
阅读(340)
推荐(0)
摘要:
今晚听了王家林老师的Spark IMF传奇行动第19课:spark排序,作业是:1、scala 实现二次排序,使用object apply 2;自己阅读RangePartitioner代码如下:/** * Created by 王家林 on 2016/1/10. */object Secondary...
阅读全文
posted @ 2016-01-24 22:59
HaiziS
阅读(443)
推荐(0)
摘要:
昨晚听了王家林老师的Spark IMF传奇行动第18课:RDD持久化、广播、累加器,作业是unpersist试验,阅读累加器源码看内部工作机制:scala> val rdd = sc.parallelize(1 to 1000)rdd: org.apache.spark.rdd.RDD[Int] =...
阅读全文
posted @ 2016-01-24 11:49
HaiziS
阅读(280)
推荐(0)
摘要:
今晚听了王家林老师的Spark IMF传奇行动第17课Transformations实战,作业是用SCALA写cogroup:def main(args: Array[String]): Unit = { val sc = sparkContext("Transformations") ...
阅读全文
posted @ 2016-01-23 01:08
HaiziS
阅读(173)
推荐(0)
摘要:
今晚听了王家林老师的Spark IMF传奇行动第16课RDD实战,课堂笔记如下:RDD操作类型:Transformation、Action、Contollerreduce要符合交换律和结合律val textLines = lineCount.reduceByKey(_+_,1)textLines.c...
阅读全文
posted @ 2016-01-21 00:33
HaiziS
阅读(300)
推荐(0)
摘要:
今晚听了王家林老师的第15课RDD创建内幕彻底解密,课堂笔记如下:Spark driver中第一个RDD:代表了Spark应用程序输入数据的来源.后续通过Transformation来对RDD进行各种算子的转换实现算法创建RDD的方法:1,使用程序中的集合创建RDD;2,使用本地文件系统创建RDD;...
阅读全文
posted @ 2016-01-18 23:16
HaiziS
阅读(237)
推荐(0)
摘要:
今晚听了王家林老师的第14课spark RDD解密,课堂笔记如下:Spark是基于工作集的应用抽象,RDD:Resillient Distributed Dataset是基于工作集的,spark可以对结果重用。位置感知:spark比hadoop更精致。RDD是lazy的,是分布式函数式编程的抽象,R...
阅读全文
posted @ 2016-01-17 23:44
HaiziS
阅读(370)
推荐(0)
摘要:
昨晚听了王家林老师的第13课Spark内核架构解密,课堂笔记如下:executor中线程池并发执行和复用,Spark executor, backed by a threadpool to run tasks.默认一个work为一个Application只开启一个executor。一个worker里...
阅读全文
posted @ 2016-01-17 14:41
HaiziS
阅读(443)
推荐(0)
摘要:
今晚听了王家林老师的第12课Spark HA实战,课堂笔记以及作业如下:Spark HA需要安装zookeeper,推荐稳定版3.4.6.1.下载zookeeper3.4.6,2.配置环境变量3.创建data logs4.vi conf/zoo.cfg5 data目录中创建myidspark-en...
阅读全文
posted @ 2016-01-16 00:43
HaiziS
阅读(283)
推荐(0)
摘要:
今晚听了王家林老师的第11课:彻底解密WordCount运行原理,课堂笔记以及作业如下:在第一个Stage中,def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] =...
阅读全文
posted @ 2016-01-13 23:40
HaiziS
阅读(307)
推荐(0)
摘要:
今晚听了王家林老师的第10课Java开发Spark实战,课后作业是:用Java方式采用Maven开发Spark的WordCount并运行在集群中先配置pom.xml com.dt.spark SparkApps 0.0.1-SNAPSHOT jar org.apache.spark ...
阅读全文
posted @ 2016-01-12 00:17
HaiziS
阅读(603)
推荐(0)
摘要:
今晚听了王家林老师的第9课IDEA中开发Spark实战,课后作业是:在Idea中编写广告点击排名的程序并提交集群测试,IDEA社区版本就够用,Ultimate没必要还要钱程序如下:object WordCountCluster { def main(args: Array[String]){ ...
阅读全文
posted @ 2016-01-10 22:38
HaiziS
阅读(236)
推荐(0)
摘要:
今晚听了王家林老师的第8课IDE中开发Spark实战,课后作业是:在Eclipse中编写广告点击排名的程序并测试,程序如下:object WordCountCluster { def main(args: Array[String]){ /** * 第一步:创建spark的配置对象S...
阅读全文
posted @ 2016-01-10 02:02
HaiziS
阅读(221)
推荐(0)
摘要:
今晚听了王家林老师的第七课Spark运行原理及RDD解密,课后作业是:spark基本原理,我的总结如下:1spark是分布式 基于内存 特别适合于迭代计算的计算框架2mapReduce就两个阶段map和reduce,而spark是不断地迭代计算,更加灵活更加强大,容易构造复杂算法。3spark不能取...
阅读全文
posted @ 2016-01-09 00:36
HaiziS
阅读(205)
推荐(0)
摘要:
今晚听了王家林老师的第六课精通Spark集群搭建和测试,课后作业是:搭建自己的spark环境并成功运行pi,我的总结如下:1 硬件环境:至少8GB内存,推荐金士顿内存,虚拟机推荐Ubuntu kylin版本,可以安装各种办公软件包括搜狗输入法。上网方式:Nat,root权限登录,避免权限问题2.软件...
阅读全文
posted @ 2016-01-06 22:24
HaiziS
阅读(375)
推荐(0)
摘要:
今晚听了王家林老师的Spark 3000门徒系列第五课scala隐式转换和并发编程,课后作业是:分析DAGScheduler Master Worker RDD源码中隐式转换和Actor并发编程,我的见解如下:隐式函数,隐式参数最常见,隐式对象和隐式类少见RDD中方法:def distinct(nu...
阅读全文
posted @ 2016-01-05 23:21
HaiziS
阅读(470)
推荐(0)
摘要:
今晚听了王家林老师的Spark 3000门徒系列第四课scala模式匹配和类型参数,总结如下:模式匹配:def data(array:Array[String]){ array match{ case Array(a,b,c) => println(a+b+c) case Array("spar...
阅读全文
posted @ 2016-01-05 00:25
HaiziS
阅读(305)
推荐(0)
摘要:
今晚听了王家林老师3000门徒spark系列课程的第三课,讲述了scala函数,下面写一下心得:普通函数:def fun1(name:String){println(name)}函数赋值给变量:val fun1 = functionName _匿名函数:val fun2 = (name:String...
阅读全文
posted @ 2016-01-04 00:17
HaiziS
阅读(446)
推荐(0)
2016年6月30日
摘要:
一:Receiver启动的方式设想 1. Spark Streaming通过Receiver持续不断的从外部数据源接收数据,并把数据汇报给Driver端,由此每个Batch Durations就可以根据汇报的数据生成不同的Job。 2. Receiver属于Spark Streaming应用程序启动
阅读全文
posted @ 2016-06-30 22:34
HaiziS
阅读(291)
推荐(0)