上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 33 下一页
摘要: 1. countByKey 定义:countByKey():scala.collection.Map(K,Long)按照key值计算每一个key出现的总次数 案例: val rdd:RDD[(String,Int)] = sc.makeRDD(Array(("zs",60),("zs",70),(" 阅读全文
posted @ 2022-08-24 17:45 jsqup 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 定义:combineByKey(createCombiner,mergePart,mergerbine ) combineByKey需要传递三个参数(函数) 1、createCombiner函数 将相同key值的某一个value数据进行一个函数操作,得到一个新的value数据 零值(新的value数 阅读全文
posted @ 2022-08-24 14:41 jsqup 阅读(29) 评论(0) 推荐(0) 编辑
摘要: 1. sortByKey 定义:sortByKey([ascending], [numPartitions]) 解释:按照key值对RDD进行排序,返回一个排序完成RDD ascending: boolean(true:升序 false:降序) numPartitions: 分区个数 案例: def 阅读全文
posted @ 2022-08-24 14:09 jsqup 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 1. groupByKey 定义:groupByKey([numPartitions])、 解释:只对键值对类型RDD生效,同时返回的是一个新的RDD[(key,Iterator[Value])] 案例: def groupByKeyOper(sc: SparkContext): Unit = { 阅读全文
posted @ 2022-08-24 08:44 jsqup 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 1.行动算子介绍 返回的不是一个RDD,而是一个数据值或者集合或者是没有返回 没有行动算子算法,那么无法实现转换算子的执行 2.reduce(fun):T 聚合算子 定义:fun函数类型如下 (T,T)=>T T是RDD的数据集数据的类型 将原先RDD数据集中聚合起来算一个总的结果 sum/coun 阅读全文
posted @ 2022-08-23 23:10 jsqup 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 1.map算子 定义: map(fun)函数 解释: 将RDD的每一个元素通过fun函数计算得到一个新的结果,新的结果我们会组合成为一个新的RDD 特别注意:一对一场景下,RDD的每一条数据对应新的RDD的中一条数据 案例: def mapOper(sc: SparkContext): Unit = 阅读全文
posted @ 2022-08-23 19:47 jsqup 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 1.启动spark命令 1. start-dfs.sh 2. start-yarn.sh 3. start-spark-all.sh 4. start-history-server.sh 5. spark-shell --master spark://node1:7077 阅读全文
posted @ 2022-08-23 15:23 jsqup 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 1. project.flow nodes: - name: dataClean type: command config: command: sh /opt/project/dataClean/dataClean.sh - name: dataAnaly type: command depends 阅读全文
posted @ 2022-08-20 13:47 jsqup 阅读(48) 评论(0) 推荐(0) 编辑
摘要: 1. 本地 spark-submit --class org.apache.spark.examples.SparkPi --master local[2] /opt/app/spark-2.3.1/examples/jars/spark-examples_2.11-2.3.1.jar 100 2. 阅读全文
posted @ 2022-08-19 16:44 jsqup 阅读(7) 评论(0) 推荐(0) 编辑
摘要: spark关联hadoop的环境 [root@node1 conf]# pwd /opt/app/spark-2.3.1/conf [root@node1 conf]# vi spark-env.sh HADOOP_CONF_DIR=/opt/app/hadoop-2.8.5/etc/hadoop 阅读全文
posted @ 2022-08-19 12:12 jsqup 阅读(31) 评论(0) 推荐(0) 编辑
上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 33 下一页