摘要: 1.mapValues / flatMapValues / keys / values,这些操作都可以使用map操作实现,是简化操作 scala> val rdd1 = sc.parallelize(List((1,2),(3,4),(5,6))) rdd1: org.apache.spark.rd 阅读全文
posted @ 2022-03-16 14:15 NeilCheung514 阅读(55) 评论(0) 推荐(0)
摘要: Action算子用来触发RDD的计算,得到相关计算的结果 Action触发Job,一个Spark程序包含多少Action算子,就有多少个Job 1.count,返回数据量 2.mean,返回平均数 3.stdev,返回平方差 4.max,返回最大值 5.min,返回最小值 6.stats,返回以上5 阅读全文
posted @ 2022-03-16 11:04 NeilCheung514 阅读(73) 评论(0) 推荐(0)
摘要: 常用的RDD转换算子 1.map(func),对数据集中的每个元素都使用func,然后返回一个新的rdd scala> val rdd1 = sc.makeRDD(1 to 10) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD 阅读全文
posted @ 2022-03-15 23:13 NeilCheung514 阅读(353) 评论(0) 推荐(0)
摘要: RDD的几种创建方式 1.parallelize,可指定分区数 scala> val rdd1 = sc.parallelize(1 to 10) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[14] at paralleli 阅读全文
posted @ 2022-03-15 21:52 NeilCheung514 阅读(161) 评论(0) 推荐(0)
摘要: 2022-03-14 17:50:10 解压软件,修改路径名 tar zxvf spark-2.4.5-bin-without-hadoop-scala-2.12.tgzmv spark-2.4.5-bin-without-hadoop-scala-2.12 spark-2.4.5 设置环境变量 v 阅读全文
posted @ 2022-03-14 20:40 NeilCheung514 阅读(623) 评论(0) 推荐(0)