再多学一点吧

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

11 2021 档案

Flink基础
摘要:1、Flink模型 2、持续流模型 Flink的算子不是懒执行的,Spark算子在遇到Action算子才会执行 3、WordCount实例 package core import org.apache.flink.streaming.api.scala._ object Demo1WordCount 阅读全文

posted @ 2021-11-26 19:17 糟糟张 阅读(87) 评论(0) 推荐(0) 编辑

电信旅游集市
摘要:详:https://gitee.com/zhang-yilei-bigdata/telecom-tourism-fair 1、开启hadoop的权限验证 关闭hadoop stop-all.sh 修改hdfs-site.xml文件 <property> <name>dfs.permissions</ 阅读全文

posted @ 2021-11-21 22:22 糟糟张 阅读(95) 评论(0) 推荐(0) 编辑

Spark优化
摘要:###代码优化 1.避免使用重复的RDD 2.对经常使用的RDD进行缓存持久化 3.使用高性能的算子 reduceByKey(map端预聚合)替代groupByKey mapPartitions替代map Transformation foreachPartitions替代foreach Actio 阅读全文

posted @ 2021-11-16 21:01 糟糟张 阅读(70) 评论(0) 推荐(0) 编辑

Spark整合Hive
摘要:spark-sql 写代码方式 1、idea里面将代码编写好打包上传到集群中运行,上线使用 spark-submit提交 2、spark shell (repl) 里面使用sqlContext 测试使用,简单任务使用 spark-shell --master yarn-client 不能使用yar 阅读全文

posted @ 2021-11-13 22:23 糟糟张 阅读(438) 评论(0) 推荐(0) 编辑

Spark SQL和CSl
摘要:###1 import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo1Sess { def main(args: Array[String]): Unit = { val spark: SparkSessio 阅读全文

posted @ 2021-11-12 23:12 糟糟张 阅读(88) 评论(0) 推荐(0) 编辑

Spark图解
摘要:###RDD五大特性 ###groupByKey和reduceBykey ###BlockManager ###资源调度和任务调度 阅读全文

posted @ 2021-11-11 22:59 糟糟张 阅读(69) 评论(0) 推荐(0) 编辑

Spark Shuffle
摘要:###求PI,运用概率模型 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} import scala.util.Random object PIDemo { def main(args 阅读全文

posted @ 2021-11-11 22:22 糟糟张 阅读(71) 评论(0) 推荐(0) 编辑

Scala语法2
摘要:###练习 package scala_01.practice import org.junit.{Before, Test} import scala.collection.immutable import scala.collection.immutable.StringOps import s 阅读全文

posted @ 2021-11-10 22:53 糟糟张 阅读(76) 评论(0) 推荐(0) 编辑

Spark算子
摘要:###算子分类 转换算子是将一个RDD变成另一个RDD之间的转换,懒执行,需要操作算子触发执行 操作算子不能将一个RDD变成另一个RDD,每一操作算子都会触发一个job 可以通过算子的返回值去判断 该算子是转换/操作算子 ###转换(Transformations)算子 ####Map import 阅读全文

posted @ 2021-11-09 23:58 糟糟张 阅读(120) 评论(0) 推荐(1) 编辑

spark搭建
摘要:1、上传解压,配置环境变量 配置bin目录 2、修改配置文件 conf cp spark-env.sh.template spark-env.sh 增加配置 export SPARK_MASTER_IP=master export SPARK_MASTER_PORT=7077 export SPAR 阅读全文

posted @ 2021-11-08 22:07 糟糟张 阅读(106) 评论(0) 推荐(0) 编辑

Spark中的Wordcount
摘要:###通过scala语言基于local编写spark的Wordcount import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(arg 阅读全文

posted @ 2021-11-08 20:08 糟糟张 阅读(550) 评论(0) 推荐(0) 编辑

Scala语法1
摘要:###main方法和def 函数 package scala_01 /** * main方法只能放在object中运行 * object 修饰的类 就相当于静态类 也相当于代码加载到虚拟机中的 “类对象” * 类中的方法及属性 相当于自动加上了 static * 可以直接通过 “类对象”(类名)直接 阅读全文

posted @ 2021-11-04 22:09 糟糟张 阅读(75) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示