Spark - 随笔分类 - 糟糟张

Spark优化

摘要：###代码优化 1.避免使用重复的RDD 2.对经常使用的RDD进行缓存持久化 3.使用高性能的算子 reduceByKey（map端预聚合）替代groupByKey mapPartitions替代map Transformation foreachPartitions替代foreach Actio 阅读全文

posted @ 2021-11-16 21:01 糟糟张阅读(110) 评论(0) 推荐(0)

Spark整合Hive

摘要：spark-sql 写代码方式 1、idea里面将代码编写好打包上传到集群中运行，上线使用 spark-submit提交 2、spark shell (repl) 里面使用sqlContext 测试使用，简单任务使用 spark-shell --master yarn-client 不能使用yar 阅读全文

posted @ 2021-11-13 22:23 糟糟张阅读(468) 评论(0) 推荐(0)

Spark SQL和CSl

摘要：###1 import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo1Sess { def main(args: Array[String]): Unit = { val spark: SparkSessio 阅读全文

posted @ 2021-11-12 23:12 糟糟张阅读(141) 评论(0) 推荐(0)

Spark图解

摘要：###RDD五大特性 ###groupByKey和reduceBykey ###BlockManager ###资源调度和任务调度阅读全文

posted @ 2021-11-11 22:59 糟糟张阅读(84) 评论(0) 推荐(0)

Spark Shuffle

摘要：###求PI，运用概率模型 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} import scala.util.Random object PIDemo { def main(args 阅读全文

posted @ 2021-11-11 22:22 糟糟张阅读(108) 评论(0) 推荐(0)

Spark算子

摘要：###算子分类转换算子是将一个RDD变成另一个RDD之间的转换，懒执行，需要操作算子触发执行操作算子不能将一个RDD变成另一个RDD，每一操作算子都会触发一个job 可以通过算子的返回值去判断该算子是转换/操作算子 ###转换（Transformations）算子 ####Map import 阅读全文

posted @ 2021-11-09 23:58 糟糟张阅读(147) 评论(0) 推荐(1)

spark搭建

摘要：1、上传解压，配置环境变量配置bin目录 2、修改配置文件 conf cp spark-env.sh.template spark-env.sh 增加配置 export SPARK_MASTER_IP=master export SPARK_MASTER_PORT=7077 export SPAR 阅读全文

posted @ 2021-11-08 22:07 糟糟张阅读(142) 评论(0) 推荐(0)

Spark中的Wordcount

摘要：###通过scala语言基于local编写spark的Wordcount import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(arg 阅读全文

posted @ 2021-11-08 20:08 糟糟张阅读(599) 评论(0) 推荐(0)

再多学一点吧

导航

公告

随笔分类 - Spark