上一页 1 ··· 24 25 26 27 28 29 30 31 32 ··· 36 下一页
摘要: 在这里看到的解决方法https://issues.apache.org/jira/browse/SPARK-1729请是个人理解,有问题请大家留言。其实本身flume是不支持像KAFKA一样的发布/订阅功能的,也就是说无法让spark去flume拉取数据,所以老外就想了个取巧的办法。在flume中其... 阅读全文
posted @ 2015-05-13 14:52 HarkLee 阅读(2463) 评论(0) 推荐(0) 编辑
摘要: 有两种方式,一种是sparkstreaming中的driver起监听,flume来推数据;另一种是sparkstreaming按照时间策略轮训的向flume拉数据。最开始我以为只有第一种方法,但是尼玛问题在于driver起来的结点是没谱的,所以每次我重启streaming后发现尼玛每次都要修改flu... 阅读全文
posted @ 2015-05-13 10:00 HarkLee 阅读(886) 评论(0) 推荐(0) 编辑
摘要: rdd.toDebugString 是个好东西,可以输出你的RDD的组成 阅读全文
posted @ 2015-05-12 16:03 HarkLee 阅读(772) 评论(0) 推荐(0) 编辑
摘要: copy的官方programming guide的代码,只有一个要说一下,Accumulators的更新是在action做的,transformation操作中对于Accumulators的增加不会即时更新的,只有action只会更新。scala> val accum = sc.accumulato... 阅读全文
posted @ 2015-05-12 15:52 HarkLee 阅读(377) 评论(0) 推荐(0) 编辑
摘要: coalesce我理解就是将多个partition合并成少量的partition。data.coalesce(2,true)第一个参数是partition数量第二个参数是合并是是否进行shuffle操作。true是进行shuffle操作。false是不进行shuffle操作 阅读全文
posted @ 2015-05-12 12:01 HarkLee 阅读(298) 评论(0) 推荐(0) 编辑
摘要: def seq(a:Int, b:Int) : Int ={ math.max(a,b)}def comb(a:Int, b:Int) : Int ={ a + b}val data = sc.parallelize(List((1,3),(1,2),(1, 4),(2,3)))data.aggre... 阅读全文
posted @ 2015-05-12 11:16 HarkLee 阅读(2870) 评论(1) 推荐(1) 编辑
摘要: 这个很简单,就是取rdd中的唯一值val data1 = sc.parallelize(List(1,2,3,2,3,2,2))data1.distinct().collect输出123注意,可以调整执行并行度即data1.distinct().collect这样就会按三个partition进行并行... 阅读全文
posted @ 2015-05-11 16:25 HarkLee 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 用来找到两个rdd的交集,注意,最终的new rdd的分区数量取决于两个rdd中的最大分区数量。测试一下:val data1 = sc.parallelize(1 to 20,1)val data2 = sc.parallelize(1 to 5,2)val data3 = data1.inters... 阅读全文
posted @ 2015-05-11 16:20 HarkLee 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 我理解,就是将RDD指定的RDD进行合并。 同时保留合并数据的分区。val data1 = sc.parallelize(1 to 20)data1.partitions.lengthval data2 = sc.parallelize(25 to 30)data2.partitions.lengt... 阅读全文
posted @ 2015-05-11 16:13 HarkLee 阅读(158) 评论(0) 推荐(0) 编辑
摘要: sample是在数据源取样。val data = sc.parallelize(1 to 20)data.sample(true,0.4).collectsample第一个参数表示是否是重复抽样,如果是true,则抽象的结果可能会有重复的数字。而false代表抽样的结果是没有重复的。sample第二... 阅读全文
posted @ 2015-05-11 15:48 HarkLee 阅读(510) 评论(0) 推荐(0) 编辑
上一页 1 ··· 24 25 26 27 28 29 30 31 32 ··· 36 下一页