02 2021 档案
spark_源码跟踪
摘要:spark源码: 版本:2.3.4: https://github.com/apache/spark/tree/v2.3.4 RPC:1.解析:远程进程调用 2.:传输类型: 1.同一进程 2. 不同的进程 同一主机 3.不同的进程、不同的主机(最复杂) 实例A > 实例B3.传输方式: 实例A(有
阅读全文
spart_yarn搭建
摘要:停止之前使用的master、worker模式,使用yarn模式 停止 [root@ke01 sbin]# ./stop-all.sh [root@ke01 sbin]# ./stop-history-server.sh [root@ke02 sbin]# ./stop-master.sh 配置spa
阅读全文
spark_单机安装、集群搭建
摘要:官网 http://spark.apache.org/ 下载spark-2.3.4-bin-hadoop2.6.tgz 单机启动 进入 bin 目录 启动 ./spark-shell 测试: sc.textFile("/tmp/spark/test.txt").flatMap(x => x.spli
阅读全文
spark_分组取topN
摘要:数据 2019-6-1 39 2019-5-21 33 2019-6-1 38 2019-6-2 31 2018-3-11 18 2018-4-23 22 1970-8-23 23 1970-8-8 32 方法一: val conf = new SparkConf().setAppName("ove
阅读全文
spart_排序、聚合、分区、随机数及散列(分区变更)
摘要:排序 val conf = new SparkConf().setMaster("local").setAppName("sort") val sc = new SparkContext(conf) //需求: 根据数据计算个网站的PV、UV、同时、只显示top3 // 设置三个分区 //数据格式:
阅读全文
spart_集合范围取值、去重、合并、相乘、交集、差集、cogroup、join
摘要:取范围 val conf = new SparkConf().setMaster("local").setAppName("test") val sc = new SparkContext(conf) val list = sc.parallelize(List(1,2,3,4,5,2,1)) va
阅读全文
Spark_wordCount源码分析
摘要:资源是可以服用的 RDD是可以复用的 RDD是abstract 有多少种子类 A Resilient Distributed Dataset (RDD)弹性分布式数据集 五种属性 A list of partitions -分区列表 A function for computing each spl
阅读全文