摘要: 版权声明:本文为博主原创文章,未经博主允许不得转载。作者:HaiziS 昨晚听了王家林老师的Spark IMF传奇行动第22课:RDD的依赖关系彻底解密,笔记如下: 1,窄依赖是指每个父RDD的一个Partition最多被子RDD的一个Partition所使用,例如map、filter、union等 阅读全文
posted @ 2016-01-30 11:51 HaiziS 阅读(251) 评论(0) 推荐(0) 编辑
 
摘要: 版权声明:本文为博主原创文章,未经博主允许不得转载。作者:HaiziS 昨晚听了王家林老师的Spark IMF传奇行动第21课:从Spark架构中透视Job,笔记如下: 默认一个worker有一个executor,也可以设置多个,当cpu利用不足时。 并行度也是被继承的 当Spark集群启动的时候, 阅读全文
posted @ 2016-01-28 23:29 HaiziS 阅读(272) 评论(0) 推荐(0) 编辑
 
摘要: 版权声明:本文为博主原创文章,未经博主允许不得转载。作者:HaiziS今晚听了王家林老师的Spark IMF传奇行动第20课:top N,作业是:scala写topGroup,且对组名key排序代码如下:def main(args: Array[String]){ val conf = new... 阅读全文
posted @ 2016-01-26 00:07 HaiziS 阅读(327) 评论(0) 推荐(0) 编辑
 
摘要: 今晚听了王家林老师的Spark IMF传奇行动第19课:spark排序,作业是:1、scala 实现二次排序,使用object apply 2;自己阅读RangePartitioner代码如下:/** * Created by 王家林 on 2016/1/10. */object Secondary... 阅读全文
posted @ 2016-01-24 22:59 HaiziS 阅读(434) 评论(0) 推荐(0) 编辑
摘要: 昨晚听了王家林老师的Spark IMF传奇行动第18课:RDD持久化、广播、累加器,作业是unpersist试验,阅读累加器源码看内部工作机制:scala> val rdd = sc.parallelize(1 to 1000)rdd: org.apache.spark.rdd.RDD[Int] =... 阅读全文
posted @ 2016-01-24 11:49 HaiziS 阅读(271) 评论(0) 推荐(0) 编辑
 
摘要: 今晚听了王家林老师的Spark IMF传奇行动第17课Transformations实战,作业是用SCALA写cogroup:def main(args: Array[String]): Unit = { val sc = sparkContext("Transformations") ... 阅读全文
posted @ 2016-01-23 01:08 HaiziS 阅读(164) 评论(0) 推荐(0) 编辑
 
摘要: 今晚听了王家林老师的Spark IMF传奇行动第16课RDD实战,课堂笔记如下:RDD操作类型:Transformation、Action、Contollerreduce要符合交换律和结合律val textLines = lineCount.reduceByKey(_+_,1)textLines.c... 阅读全文
posted @ 2016-01-21 00:33 HaiziS 阅读(278) 评论(0) 推荐(0) 编辑
 
摘要: 今晚听了王家林老师的第15课RDD创建内幕彻底解密,课堂笔记如下:Spark driver中第一个RDD:代表了Spark应用程序输入数据的来源.后续通过Transformation来对RDD进行各种算子的转换实现算法创建RDD的方法:1,使用程序中的集合创建RDD;2,使用本地文件系统创建RDD;... 阅读全文
posted @ 2016-01-18 23:16 HaiziS 阅读(228) 评论(0) 推荐(0) 编辑
 
摘要: 今晚听了王家林老师的第14课spark RDD解密,课堂笔记如下:Spark是基于工作集的应用抽象,RDD:Resillient Distributed Dataset是基于工作集的,spark可以对结果重用。位置感知:spark比hadoop更精致。RDD是lazy的,是分布式函数式编程的抽象,R... 阅读全文
posted @ 2016-01-17 23:44 HaiziS 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 昨晚听了王家林老师的第13课Spark内核架构解密,课堂笔记如下:executor中线程池并发执行和复用,Spark executor, backed by a threadpool to run tasks.默认一个work为一个Application只开启一个executor。一个worker里... 阅读全文
posted @ 2016-01-17 14:41 HaiziS 阅读(431) 评论(0) 推荐(0) 编辑
 
摘要: 今晚听了王家林老师的第12课Spark HA实战,课堂笔记以及作业如下:Spark HA需要安装zookeeper,推荐稳定版3.4.6.1.下载zookeeper3.4.6,2.配置环境变量3.创建data logs4.vi conf/zoo.cfg5 data目录中创建myidspark-en... 阅读全文
posted @ 2016-01-16 00:43 HaiziS 阅读(275) 评论(0) 推荐(0) 编辑
 
摘要: 今晚听了王家林老师的第11课:彻底解密WordCount运行原理,课堂笔记以及作业如下:在第一个Stage中,def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] =... 阅读全文
posted @ 2016-01-13 23:40 HaiziS 阅读(299) 评论(0) 推荐(0) 编辑
 
摘要: 今晚听了王家林老师的第10课Java开发Spark实战,课后作业是:用Java方式采用Maven开发Spark的WordCount并运行在集群中先配置pom.xml com.dt.spark SparkApps 0.0.1-SNAPSHOT jar org.apache.spark ... 阅读全文
posted @ 2016-01-12 00:17 HaiziS 阅读(591) 评论(0) 推荐(0) 编辑
 
摘要: 今晚听了王家林老师的第9课IDEA中开发Spark实战,课后作业是:在Idea中编写广告点击排名的程序并提交集群测试,IDEA社区版本就够用,Ultimate没必要还要钱程序如下:object WordCountCluster { def main(args: Array[String]){ ... 阅读全文
posted @ 2016-01-10 22:38 HaiziS 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 今晚听了王家林老师的第8课IDE中开发Spark实战,课后作业是:在Eclipse中编写广告点击排名的程序并测试,程序如下:object WordCountCluster { def main(args: Array[String]){ /** * 第一步:创建spark的配置对象S... 阅读全文
posted @ 2016-01-10 02:02 HaiziS 阅读(213) 评论(0) 推荐(0) 编辑
 
摘要: 今晚听了王家林老师的第七课Spark运行原理及RDD解密,课后作业是:spark基本原理,我的总结如下:1spark是分布式 基于内存 特别适合于迭代计算的计算框架2mapReduce就两个阶段map和reduce,而spark是不断地迭代计算,更加灵活更加强大,容易构造复杂算法。3spark不能取... 阅读全文
posted @ 2016-01-09 00:36 HaiziS 阅读(187) 评论(0) 推荐(0) 编辑
 
摘要: 今晚听了王家林老师的第六课精通Spark集群搭建和测试,课后作业是:搭建自己的spark环境并成功运行pi,我的总结如下:1 硬件环境:至少8GB内存,推荐金士顿内存,虚拟机推荐Ubuntu kylin版本,可以安装各种办公软件包括搜狗输入法。上网方式:Nat,root权限登录,避免权限问题2.软件... 阅读全文
posted @ 2016-01-06 22:24 HaiziS 阅读(370) 评论(0) 推荐(0) 编辑
 
摘要: 今晚听了王家林老师的Spark 3000门徒系列第五课scala隐式转换和并发编程,课后作业是:分析DAGScheduler Master Worker RDD源码中隐式转换和Actor并发编程,我的见解如下:隐式函数,隐式参数最常见,隐式对象和隐式类少见RDD中方法:def distinct(nu... 阅读全文
posted @ 2016-01-05 23:21 HaiziS 阅读(462) 评论(0) 推荐(0) 编辑
摘要: 今晚听了王家林老师的Spark 3000门徒系列第四课scala模式匹配和类型参数,总结如下:模式匹配:def data(array:Array[String]){ array match{ case Array(a,b,c) => println(a+b+c) case Array("spar... 阅读全文
posted @ 2016-01-05 00:25 HaiziS 阅读(293) 评论(0) 推荐(0) 编辑
 
摘要: 今晚听了王家林老师3000门徒spark系列课程的第三课,讲述了scala函数,下面写一下心得:普通函数:def fun1(name:String){println(name)}函数赋值给变量:val fun1 = functionName _匿名函数:val fun2 = (name:String... 阅读全文
posted @ 2016-01-04 00:17 HaiziS 阅读(431) 评论(0) 推荐(0) 编辑
  2016年6月30日
摘要: 一:Receiver启动的方式设想 1. Spark Streaming通过Receiver持续不断的从外部数据源接收数据,并把数据汇报给Driver端,由此每个Batch Durations就可以根据汇报的数据生成不同的Job。 2. Receiver属于Spark Streaming应用程序启动 阅读全文
posted @ 2016-06-30 22:34 HaiziS 阅读(272) 评论(0) 推荐(0) 编辑