2019 年 1月 4 日随笔档案 - moonlight.ml

2019年1月4日

spark-wordcount-sample算子测试

摘要： import org.apache.spark.{SparkConf, SparkContext} object radomSampleU { def main(args: Array[String]) { val conf = new SparkConf().setAppName("WordCount_groupBy") .setMaster("local") ... 阅读全文

posted @ 2019-01-04 17:17 moonlight.ml 阅读(497) 评论(0) 推荐(0) 编辑

Spark-水库抽样-根据抽样率确定每个分区的样本大小

摘要： /* * 输入：采样率，待采样的RDD * 输出：每个分区的样本大小（记录数） * 由采样率确定，每个分区的样本大小 */ def findNumPerPartition[T: ClassTag, U: ClassTag](sampleRate : Double, rddNum : RDD[T]): Int ={ //RDD总记录数 val numRdd=rddNum... 阅读全文

posted @ 2019-01-04 17:04 moonlight.ml 阅读(333) 评论(0) 推荐(0) 编辑

moonlight.ml

spark-wordcount-sample算子测试

Spark-水库抽样-根据抽样率确定每个分区的样本大小

导航

公告