摘要: 1、foreachRDD设计模式 正确使用foreachRDD的方式,每一个分区创建一个单例connection对象。 2、并行机制 数据并行接收,以kafka为例,从多个topics接收数据。 数据并行处理 和spark.default.parallelism有关。 3、提交Jobs Driver 阅读全文
posted @ 2018-05-24 17:38 乡村骑士2 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 1、scala中没有静态方法或静态字段,但是scala可以通过单例对象object来实现。 object和class区别:object不能提供构造器,本质上object拥有class所有的其他性质。 2、如果class中,你希望既有实例方法,又有静态方法,可以使用伴生对象。类和伴生对象可以互访私有属 阅读全文
posted @ 2018-05-22 13:55 乡村骑士2 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 1、IDEA中手动加入jar包 2、mvn创建scala项目 注意:在项目里面创建文件夹,需要生效,然后才能创建scala类 3、spark源码导入IDEA 源码位置:https://github.com/apache/spark/ 参考:http://www.cnblogs.com/zlslch/ 阅读全文
posted @ 2018-04-27 10:47 乡村骑士2 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 1、本地向量(稀疏矩阵、稠密矩阵) 2、Labled Point 3、本地矩阵 4、分布式矩阵 RowMatrix、IndexedRowMatrix、三元组矩阵Coordinate 阅读全文
posted @ 2018-01-18 07:28 乡村骑士2 阅读(121) 评论(0) 推荐(0) 编辑
摘要: transformation算子 1、map() 2、flatmap() 3、mapPartitions() 4、union() 5、groupByKey() 6、filter() 7、distinc()去重 8、subtract()集合的差操作 9、cache()从磁盘缓存到内存 10、persi 阅读全文
posted @ 2018-01-17 23:06 乡村骑士2 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 这个知识点在java笔试中可能会涉及。 public static void main(String[] args) { for(int i=1,j=i+10;i<5;i++,j=i*2){ System.out.println(i+" "+j); } } 结果如下: 1 112 43 64 8 阅读全文
posted @ 2018-01-17 21:16 乡村骑士2 阅读(667) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-01-17 07:07 乡村骑士2 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 1、饿汉式单例模式 2、懒汉式单例模式 3、线程安全的懒汉式(使用synchronized关键字) 参考:https://www.cnblogs.com/SimplifyIT/p/6561273.html 阅读全文
posted @ 2018-01-09 07:48 乡村骑士2 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 1、spark on yarn作业提交(yarn-client模式) bin/spark-submit \--class dajiangtai.averageAge \--master yarn-client \--num-executors 1 \--driver-memory 1g \--exe 阅读全文
posted @ 2017-12-30 17:25 乡村骑士2 阅读(413) 评论(0) 推荐(0) 编辑
摘要: 1、sparkstreaming直接从kafka消费数据 采用createDirectStream,示例: createDirectStream[K, V, KD <: Decoder[K], VD <: Decoder[V]](ssc: StreamingContext, kafkaParams: 阅读全文
posted @ 2017-12-29 16:15 乡村骑士2 阅读(472) 评论(0) 推荐(0) 编辑