NeilCheung514 - 博客园

2022年3月16日

摘要： 1.mapValues / flatMapValues / keys / values，这些操作都可以使用map操作实现，是简化操作 scala> val rdd1 = sc.parallelize(List((1,2),(3,4),(5,6))) rdd1: org.apache.spark.rd 阅读全文

posted @ 2022-03-16 14:15 NeilCheung514 阅读(55) 评论(0) 推荐(0)

RDD的执行

摘要： Action算子用来触发RDD的计算，得到相关计算的结果 Action触发Job，一个Spark程序包含多少Action算子，就有多少个Job 1.count，返回数据量 2.mean，返回平均数 3.stdev，返回平方差 4.max，返回最大值 5.min，返回最小值 6.stats，返回以上5 阅读全文

posted @ 2022-03-16 11:04 NeilCheung514 阅读(73) 评论(0) 推荐(0)

2022年3月15日

RDD的转换

摘要：常用的RDD转换算子 1.map(func)，对数据集中的每个元素都使用func，然后返回一个新的rdd scala> val rdd1 = sc.makeRDD(1 to 10) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD 阅读全文

posted @ 2022-03-15 23:13 NeilCheung514 阅读(353) 评论(0) 推荐(0)

RDD的创建

摘要： RDD的几种创建方式 1.parallelize，可指定分区数 scala> val rdd1 = sc.parallelize(1 to 10) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[14] at paralleli 阅读全文

posted @ 2022-03-15 21:52 NeilCheung514 阅读(161) 评论(0) 推荐(0)

2022年3月14日

Spark安装部署(Aliyun)

摘要： 2022-03-14 17:50:10 解压软件，修改路径名 tar zxvf spark-2.4.5-bin-without-hadoop-scala-2.12.tgzmv spark-2.4.5-bin-without-hadoop-scala-2.12 spark-2.4.5 设置环境变量 v 阅读全文

posted @ 2022-03-14 20:40 NeilCheung514 阅读(623) 评论(0) 推荐(0)

neilcheung

公告