青竹之下 - 博客园

2022年2月28日

摘要：请到本教程官网的“下载专区”的“数据集”中下载 chapter5-data1.txt，该数据集包含了某大学计算机系的成绩，数据格式如下所示： Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,DataBase,90 Jim,Algo 阅读全文

posted @ 2022-02-28 14:18 青竹之下阅读(282) 评论(0) 推荐(0) 编辑

Scala实验2.3

摘要： 3. 统计学生成绩学生的成绩清单格式如下所示，第一行为表头，各字段意思分别为学号、性别、课程名 1、课程名 2 等，后面每一行代表一个学生的信息，各字段之间用空白符隔开给定任何一个如上格式的清单（不同清单里课程数量可能不一样），要求尽可能采用函数式编程，统计出各门课程的平均成绩，最低成绩，和最阅读全文

posted @ 2022-02-28 14:13 青竹之下阅读(158) 评论(0) 推荐(0) 编辑

Scala实验2

摘要： import io.StdIn._ var Sn:Float = 0 var n:Float=1 println("please input q:") val q = readInt() while(Sn<q){ Sn+=(n+1)/n n+=1 } println(s"Sn=$Sn") 1. 计算阅读全文

posted @ 2022-02-28 14:11 青竹之下阅读(101) 评论(0) 推荐(0) 编辑

2022年2月22日

foldByKey和combineByKey

摘要：函数签名 def foldByKey(zeroValue: V)(func: (V, V) => V): RDD[(K, V)] 函数说明当分区内计算规则和分区间计算规则相同时，aggregateByKey 就可以简化为 foldByKey val dataRDD1 = sparkContext. 阅读全文

posted @ 2022-02-22 14:16 青竹之下阅读(42) 评论(0) 推荐(0) 编辑

aggregateByKey

摘要：函数签名 def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)] 函数说明将数据根据不同的规则进行分区内计算和分区间计算 val dataRDD1 = s 阅读全文

posted @ 2022-02-22 14:13 青竹之下阅读(37) 评论(0) 推荐(0) 编辑

2022年2月9日

Executor 与 Core

摘要： Spark Executor 是集群中运行在工作节点（Worker）中的一个 JVM 进程，是整个集群中的专门用于计算的节点。在提交应用中，可以提供参数指定计算节点的个数，以及对应的资源。这里的资源一般指的是工作节点 Executor 的内存大小和使用的虚拟 CPU 核（Core）数量。并行阅读全文

posted @ 2022-02-09 22:42 青竹之下阅读(133) 评论(0) 推荐(0) 编辑

命令行工具

摘要：在解压缩文件夹下的 data 目录中，添加 word.txt 文件。在命令行工具中执行如下代码指令（和 IDEA 中代码简化版一致） sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).col 阅读全文

posted @ 2022-02-09 22:29 青竹之下阅读(40) 评论(0) 推荐(0) 编辑

启动 Local 环境

摘要： tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module cd /opt/module mv spark-3.0.0-bin-hadoop3.2 spark-local 进入解压缩后的路径，执行如下指令 bin/spark-shell 启动成功后，阅读全文

posted @ 2022-02-09 22:28 青竹之下阅读(33) 评论(0) 推荐(0) 编辑

Spark 运行环境

摘要： Spark 作为一个数据处理框架和计算引擎，被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为 Yarn，不过逐渐容器式环境也慢慢流行起来。接下来，我们就分别看看不同环境下 Spark 的运行 Local 模式想啥呢，你之前一直在使用的模式可不是 Local 模式哟。所谓的 Loca 阅读全文

posted @ 2022-02-09 22:26 青竹之下阅读(46) 评论(0) 推荐(0) 编辑

spark异常处理

摘要：如果本机操作系统是 Windows，在程序中使用了 Hadoop 相关的东西，比如写入文件到 HDFS，则会遇到如下异常：出现这个问题的原因，并不是程序的错误，而是 windows 系统用到了 hadoop 相关的服务，解决办法是通过配置关联到 windows 的系统依赖就可以了在 IDEA 阅读全文

posted @ 2022-02-09 22:24 青竹之下阅读(84) 评论(0) 推荐(0) 编辑

huaobin

公告