2019年1月4日

spark-wordcount-sample算子测试

摘要: import org.apache.spark.{SparkConf, SparkContext} object radomSampleU { def main(args: Array[String]) { val conf = new SparkConf().setAppName("WordCount_groupBy") .setMaster("local") ... 阅读全文

posted @ 2019-01-04 17:17 moonlight.ml 阅读(497) 评论(0) 推荐(0) 编辑

Spark-水库抽样-根据抽样率确定每个分区的样本大小

摘要: /* * 输入:采样率,待采样的RDD * 输出:每个分区的样本大小(记录数) * 由采样率确定,每个分区的样本大小 */ def findNumPerPartition[T: ClassTag, U: ClassTag](sampleRate : Double, rddNum : RDD[T]): Int ={ //RDD总记录数 val numRdd=rddNum... 阅读全文

posted @ 2019-01-04 17:04 moonlight.ml 阅读(333) 评论(0) 推荐(0) 编辑

导航