HaiziS - 博客园

[置顶] Spark IMF传奇行动第22课：RDD的依赖关系彻底解密

posted @ 2016-01-30 11:51 HaiziS 阅读(251) 评论(0) 推荐(0) 编辑

[置顶] Spark IMF传奇行动第21课：从Spark架构中透视Job

posted @ 2016-01-28 23:29 HaiziS 阅读(272) 评论(0) 推荐(0) 编辑

[置顶] Spark IMF传奇行动第20课：top N总结

posted @ 2016-01-26 00:07 HaiziS 阅读(327) 评论(0) 推荐(0) 编辑

[置顶] Spark IMF传奇行动第19课：spark排序总结

摘要：今晚听了王家林老师的Spark IMF传奇行动第19课：spark排序，作业是：1、scala 实现二次排序，使用object apply 2；自己阅读RangePartitioner代码如下:/** * Created by 王家林 on 2016/1/10. */object Secondary... 阅读全文

posted @ 2016-01-24 22:59 HaiziS 阅读(434) 评论(0) 推荐(0) 编辑

[置顶] Spark IMF传奇行动第18课：RDD持久化、广播、累加器总结

摘要：昨晚听了王家林老师的Spark IMF传奇行动第18课：RDD持久化、广播、累加器，作业是unpersist试验，阅读累加器源码看内部工作机制：scala> val rdd = sc.parallelize(1 to 1000)rdd: org.apache.spark.rdd.RDD[Int] =... 阅读全文

posted @ 2016-01-24 11:49 HaiziS 阅读(271) 评论(0) 推荐(0) 编辑

[置顶] Spark IMF传奇行动第17课Transformations实战总结

摘要：今晚听了王家林老师的Spark IMF传奇行动第17课Transformations实战，作业是用SCALA写cogroup：def main(args: Array[String]): Unit = { val sc = sparkContext("Transformations") ... 阅读全文

posted @ 2016-01-23 01:08 HaiziS 阅读(164) 评论(0) 推荐(0) 编辑

[置顶] Spark IMF传奇行动第16课RDD实战总结

摘要：今晚听了王家林老师的Spark IMF传奇行动第16课RDD实战，课堂笔记如下：RDD操作类型：Transformation、Action、Contollerreduce要符合交换律和结合律val textLines = lineCount.reduceByKey(_+_,1)textLines.c... 阅读全文

posted @ 2016-01-21 00:33 HaiziS 阅读(278) 评论(0) 推荐(0) 编辑

[置顶] Spark3000门徒第15课RDD创建内幕彻底解密总结

摘要：今晚听了王家林老师的第15课RDD创建内幕彻底解密，课堂笔记如下：Spark driver中第一个RDD：代表了Spark应用程序输入数据的来源.后续通过Transformation来对RDD进行各种算子的转换实现算法创建RDD的方法：1，使用程序中的集合创建RDD;2，使用本地文件系统创建RDD；... 阅读全文

posted @ 2016-01-18 23:16 HaiziS 阅读(228) 评论(0) 推荐(0) 编辑

[置顶] Spark3000门徒第14课spark RDD解密总结

摘要：今晚听了王家林老师的第14课spark RDD解密，课堂笔记如下：Spark是基于工作集的应用抽象，RDD：Resillient Distributed Dataset是基于工作集的，spark可以对结果重用。位置感知：spark比hadoop更精致。RDD是lazy的，是分布式函数式编程的抽象，R... 阅读全文

posted @ 2016-01-17 23:44 HaiziS 阅读(357) 评论(0) 推荐(0) 编辑

[置顶] Spark3000门徒第13课Spark内核架构解密总结

摘要：昨晚听了王家林老师的第13课Spark内核架构解密，课堂笔记如下：executor中线程池并发执行和复用，Spark executor, backed by a threadpool to run tasks.默认一个work为一个Application只开启一个executor。一个worker里... 阅读全文

posted @ 2016-01-17 14:41 HaiziS 阅读(431) 评论(0) 推荐(0) 编辑

[置顶] Spark3000门徒第12课Spark HA实战总结

摘要：今晚听了王家林老师的第12课Spark HA实战，课堂笔记以及作业如下：Spark HA需要安装zookeeper，推荐稳定版3.4.6.1.下载zookeeper3.4.6，2.配置环境变量3.创建data logs4.vi conf/zoo.cfg5 data目录中创建myidspark-en... 阅读全文

posted @ 2016-01-16 00:43 HaiziS 阅读(275) 评论(0) 推荐(0) 编辑

[置顶] Spark3000门徒第11课彻底解密WordCount运行原理总结

摘要：今晚听了王家林老师的第11课：彻底解密WordCount运行原理，课堂笔记以及作业如下：在第一个Stage中，def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] =... 阅读全文

posted @ 2016-01-13 23:40 HaiziS 阅读(299) 评论(0) 推荐(0) 编辑

[置顶] Spark3000门徒第10课Java开发Spark实战总结

摘要：今晚听了王家林老师的第10课Java开发Spark实战，课后作业是：用Java方式采用Maven开发Spark的WordCount并运行在集群中先配置pom.xml com.dt.spark SparkApps 0.0.1-SNAPSHOT jar org.apache.spark ... 阅读全文

posted @ 2016-01-12 00:17 HaiziS 阅读(591) 评论(0) 推荐(0) 编辑

[置顶] Spark3000门徒第9课IDEA中开发Spark实战总结

摘要：今晚听了王家林老师的第9课IDEA中开发Spark实战，课后作业是：在Idea中编写广告点击排名的程序并提交集群测试，IDEA社区版本就够用，Ultimate没必要还要钱程序如下：object WordCountCluster { def main(args: Array[String]){ ... 阅读全文

posted @ 2016-01-10 22:38 HaiziS 阅读(219) 评论(0) 推荐(0) 编辑

[置顶] Spark3000门徒第8课IDE中开发Spark实战总结

摘要：今晚听了王家林老师的第8课IDE中开发Spark实战，课后作业是：在Eclipse中编写广告点击排名的程序并测试，程序如下：object WordCountCluster { def main(args: Array[String]){ /** * 第一步：创建spark的配置对象S... 阅读全文

posted @ 2016-01-10 02:02 HaiziS 阅读(213) 评论(0) 推荐(0) 编辑

[置顶] Spark3000门徒第七课Spark运行原理及RDD解密总结

摘要：今晚听了王家林老师的第七课Spark运行原理及RDD解密，课后作业是：spark基本原理，我的总结如下：1spark是分布式基于内存特别适合于迭代计算的计算框架2mapReduce就两个阶段map和reduce，而spark是不断地迭代计算，更加灵活更加强大，容易构造复杂算法。3spark不能取... 阅读全文

posted @ 2016-01-09 00:36 HaiziS 阅读(187) 评论(0) 推荐(0) 编辑

[置顶] Spark3000门徒第六课精通Spark集群搭建总结

摘要：今晚听了王家林老师的第六课精通Spark集群搭建和测试，课后作业是：搭建自己的spark环境并成功运行pi，我的总结如下：1 硬件环境：至少8GB内存，推荐金士顿内存，虚拟机推荐Ubuntu kylin版本，可以安装各种办公软件包括搜狗输入法。上网方式：Nat,root权限登录，避免权限问题2.软件... 阅读全文

posted @ 2016-01-06 22:24 HaiziS 阅读(370) 评论(0) 推荐(0) 编辑

[置顶] Spark3000门徒第五课scala隐式转换和并发编程总结

摘要：今晚听了王家林老师的Spark 3000门徒系列第五课scala隐式转换和并发编程，课后作业是：分析DAGScheduler Master Worker RDD源码中隐式转换和Actor并发编程，我的见解如下：隐式函数，隐式参数最常见，隐式对象和隐式类少见RDD中方法：def distinct(nu... 阅读全文

posted @ 2016-01-05 23:21 HaiziS 阅读(462) 评论(0) 推荐(0) 编辑

[置顶] Spark 3000门徒第四课scala模式匹配和类型参数总结

摘要：今晚听了王家林老师的Spark 3000门徒系列第四课scala模式匹配和类型参数，总结如下：模式匹配：def data(array:Array[String]){ array match{ case Array(a,b,c) => println(a+b+c) case Array("spar... 阅读全文

posted @ 2016-01-05 00:25 HaiziS 阅读(293) 评论(0) 推荐(0) 编辑

[置顶] Spark 3000门徒第三课scala高阶函数总结

摘要：今晚听了王家林老师3000门徒spark系列课程的第三课，讲述了scala函数，下面写一下心得：普通函数：def fun1(name:String){println(name)}函数赋值给变量：val fun1 = functionName _匿名函数：val fun2 = (name:String... 阅读全文

posted @ 2016-01-04 00:17 HaiziS 阅读(431) 评论(0) 推荐(0) 编辑

2016年6月30日

Spark Streaming源码解读之Receiver在Driver的精妙实现全生命周期彻底研究和思考

摘要：一：Receiver启动的方式设想 1. Spark Streaming通过Receiver持续不断的从外部数据源接收数据，并把数据汇报给Driver端，由此每个Batch Durations就可以根据汇报的数据生成不同的Job。 2. Receiver属于Spark Streaming应用程序启动阅读全文

posted @ 2016-06-30 22:34 HaiziS 阅读(272) 评论(0) 推荐(0) 编辑