jsqup

2022年8月24日

摘要： 1. countByKey 定义：countByKey（）：scala.collection.Map（K，Long）按照key值计算每一个key出现的总次数案例： val rdd:RDD[(String,Int)] = sc.makeRDD(Array(("zs",60),("zs",70),(" 阅读全文

posted @ 2022-08-24 17:45 jsqup 阅读(13) 评论(0) 推荐(0) 编辑

键值对转换算子--最重要的算子combineByKey

摘要：定义：combineByKey(createCombiner，mergePart，mergerbine ) combineByKey需要传递三个参数（函数） 1、createCombiner函数将相同key值的某一个value数据进行一个函数操作，得到一个新的value数据零值（新的value数阅读全文

posted @ 2022-08-24 14:41 jsqup 阅读(29) 评论(0) 推荐(0) 编辑

键值对转换算子2

摘要： 1. sortByKey 定义：sortByKey([ascending], [numPartitions]) 解释：按照key值对RDD进行排序，返回一个排序完成RDD ascending: boolean（true:升序 false:降序） numPartitions: 分区个数案例: def 阅读全文

posted @ 2022-08-24 14:09 jsqup 阅读(19) 评论(0) 推荐(0) 编辑

键值对类型转换算子

摘要： 1. groupByKey 定义：groupByKey([numPartitions])、解释：只对键值对类型RDD生效，同时返回的是一个新的RDD[(key,Iterator[Value])] 案例： def groupByKeyOper(sc: SparkContext): Unit = { 阅读全文

posted @ 2022-08-24 08:44 jsqup 阅读(21) 评论(0) 推荐(0) 编辑

2022年8月23日

行动算子(常用和整数型)

摘要： 1.行动算子介绍返回的不是一个RDD，而是一个数据值或者集合或者是没有返回没有行动算子算法，那么无法实现转换算子的执行 2.reduce(fun):T 聚合算子定义：fun函数类型如下（T,T）=>T T是RDD的数据集数据的类型将原先RDD数据集中聚合起来算一个总的结果 sum/coun 阅读全文

posted @ 2022-08-23 23:10 jsqup 阅读(122) 评论(0) 推荐(0) 编辑

数值类型转换算子

摘要： 1.map算子定义: map(fun)函数解释: 将RDD的每一个元素通过fun函数计算得到一个新的结果，新的结果我们会组合成为一个新的RDD 特别注意：一对一场景下，RDD的每一条数据对应新的RDD的中一条数据案例： def mapOper(sc: SparkContext): Unit = 阅读全文

posted @ 2022-08-23 19:47 jsqup 阅读(23) 评论(0) 推荐(0) 编辑

启动spark命令

摘要： 1.启动spark命令 1. start-dfs.sh 2. start-yarn.sh 3. start-spark-all.sh 4. start-history-server.sh 5. spark-shell --master spark://node1:7077 阅读全文

posted @ 2022-08-23 15:23 jsqup 阅读(136) 评论(0) 推荐(0) 编辑

2022年8月20日

12. azkaban调度打包上传

摘要： 1. project.flow nodes: - name: dataClean type: command config: command: sh /opt/project/dataClean/dataClean.sh - name: dataAnaly type: command depends 阅读全文

posted @ 2022-08-20 13:47 jsqup 阅读(48) 评论(0) 推荐(0) 编辑

2022年8月19日

spark程序如何在不同的安装模式下运行

摘要： 1. 本地 spark-submit --class org.apache.spark.examples.SparkPi --master local[2] /opt/app/spark-2.3.1/examples/jars/spark-examples_2.11-2.3.1.jar 100 2. 阅读全文

posted @ 2022-08-19 16:44 jsqup 阅读(7) 评论(0) 推荐(0) 编辑

spark配置(yarn)

摘要： spark关联hadoop的环境 [root@node1 conf]# pwd /opt/app/spark-2.3.1/conf [root@node1 conf]# vi spark-env.sh HADOOP_CONF_DIR=/opt/app/hadoop-2.8.5/etc/hadoop 阅读全文

posted @ 2022-08-19 12:12 jsqup 阅读(31) 评论(0) 推荐(0) 编辑

公告