摘要: saveAsTextFile `def saveAsTextFile(path: String, codec: Class[_ rdd1.saveAsTextFile("hdfs://oldsix1:9000/data/rdd/") //保存到HDFS scala rdd1.saveAsTextFi 阅读全文
posted @ 2018-08-11 01:38 oldsix666 阅读(1217) 评论(0) 推荐(0) 编辑
摘要: countByKey countByKey用于统计RDD[K,V]中每个K的数量 scala var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("B",3))) rdd1: org.apache.spark.rdd.RDD[(S 阅读全文
posted @ 2018-08-11 01:37 oldsix666 阅读(184) 评论(0) 推荐(0) 编辑
摘要: aggregate aggregate用于聚合RDD中的元素,先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型,再使用combOp将之前每个分区聚合后的U类型聚合成U类型 特别注意seqOp和combOp都会使用zeroValue的值,zeroValue的类型为U var rdd1 = 阅读全文
posted @ 2018-08-11 01:36 oldsix666 阅读(71) 评论(0) 推荐(0) 编辑
摘要: take take用于获取RDD中从0到num 1下标的元素,不排序 scala var rdd1 = sc.makeRDD(Seq(10, 4, 2, 12, 3)) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[40] a 阅读全文
posted @ 2018-08-11 01:36 oldsix666 阅读(232) 评论(0) 推荐(0) 编辑
摘要: first first返回RDD中的第一个元素,不排序 scala var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2) rdd1: org.apache.spark.rdd.RDD[(String, String)] = Par 阅读全文
posted @ 2018-08-11 01:34 oldsix666 阅读(228) 评论(0) 推荐(0) 编辑
摘要: Spark可以将RDD持久化到内存或磁盘文件系统中,默认情况下,spark将数据存于内存中,这样提高迭代计算以及各计算模型之间的数据共享,同时也带来了一定的风险性。 一般情况下执行节点60%内存用于缓存数据,剩下的40%用于运行任务。 什么情况下需要对数据进行持久化 (1)某步骤计算特别耗时,重新计 阅读全文
posted @ 2018-08-11 01:28 oldsix666 阅读(202) 评论(0) 推荐(0) 编辑
摘要: leftOuterJoin leftOuterJoin类似于SQL中的左外关联left outer join,返回结果以前面的RDD为主,关联不上的记录为空。只能用于两个RDD之间的关联,如果要多个RDD关联,多关联几次即可 参数numPartitions用于指定结果的分区数 参数partition 阅读全文
posted @ 2018-08-11 01:27 oldsix666 阅读(134) 评论(0) 推荐(0) 编辑
摘要: groupByKey 该函数用于将RDD[K,V]中每个K对应的V值,合并到一个集合Iterable[V]中 参数numPartitions用于指定分区数 参数partitioner用于指定分区函数 scala var rdd1 = sc.makeRDD(Array(("A",0),("A",2), 阅读全文
posted @ 2018-08-11 01:26 oldsix666 阅读(94) 评论(0) 推荐(0) 编辑
摘要: cogroup 参数为1个RDD 参数为2个RDD 参数为3个RDD cogroup相当于SQL中的全外关联full outer join,返回左右RDD中的记录,关联不上的为空 参数numPartitions用于指定结果的分区数 参数partitioner用于指定分区函数 var rdd1 = s 阅读全文
posted @ 2018-08-11 01:26 oldsix666 阅读(105) 评论(0) 推荐(0) 编辑
摘要: combineByKey() 该函数用于将RDD[K,V]转换成RDD[K,C],这里的V类型和C类型可以相同也可以不同 参数 | 参数说明 | createCombiner | 组合器函数,用于将V类型转换成C类型,输入参数为RDD[K,V]中的V,输出为C mergeValue | 合并值函数, 阅读全文
posted @ 2018-08-11 01:25 oldsix666 阅读(107) 评论(0) 推荐(0) 编辑