2022 年 2月 9 日随笔档案 - 青竹之下

2022年2月9日

摘要： Spark Executor 是集群中运行在工作节点（Worker）中的一个 JVM 进程，是整个集群中的专门用于计算的节点。在提交应用中，可以提供参数指定计算节点的个数，以及对应的资源。这里的资源一般指的是工作节点 Executor 的内存大小和使用的虚拟 CPU 核（Core）数量。并行阅读全文

posted @ 2022-02-09 22:42 青竹之下阅读(133) 评论(0) 推荐(0) 编辑

命令行工具

摘要：在解压缩文件夹下的 data 目录中，添加 word.txt 文件。在命令行工具中执行如下代码指令（和 IDEA 中代码简化版一致） sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).col 阅读全文

posted @ 2022-02-09 22:29 青竹之下阅读(40) 评论(0) 推荐(0) 编辑

启动 Local 环境

摘要： tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module cd /opt/module mv spark-3.0.0-bin-hadoop3.2 spark-local 进入解压缩后的路径，执行如下指令 bin/spark-shell 启动成功后，阅读全文

posted @ 2022-02-09 22:28 青竹之下阅读(33) 评论(0) 推荐(0) 编辑

Spark 运行环境

摘要： Spark 作为一个数据处理框架和计算引擎，被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为 Yarn，不过逐渐容器式环境也慢慢流行起来。接下来，我们就分别看看不同环境下 Spark 的运行 Local 模式想啥呢，你之前一直在使用的模式可不是 Local 模式哟。所谓的 Loca 阅读全文

posted @ 2022-02-09 22:26 青竹之下阅读(46) 评论(0) 推荐(0) 编辑

spark异常处理

摘要：如果本机操作系统是 Windows，在程序中使用了 Hadoop 相关的东西，比如写入文件到 HDFS，则会遇到如下异常：出现这个问题的原因，并不是程序的错误，而是 windows 系统用到了 hadoop 相关的服务，解决办法是通过配置关联到 windows 的系统依赖就可以了在 IDEA 阅读全文

posted @ 2022-02-09 22:24 青竹之下阅读(84) 评论(0) 推荐(0) 编辑

案例 WordCount

摘要： // 创建 Spark 运行配置对象 val sparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount") // 创建 Spark 上下文环境对象（连接对象） val sc : SparkContext = new 阅读全文

posted @ 2022-02-09 22:23 青竹之下阅读(28) 评论(0) 推荐(0) 编辑

Spark 快速上手

摘要：创建 Maven 项目 2.1.1 增加 Scala 插件 Spark 由 Scala 语言开发的，所以本课件接下来的开发所使用的语言也为 Scala，咱们当前使用的 Spark 版本为 3.0.0，默认采用的 Scala 编译版本为 2.12，所以后续开发时。我们依然采用这个版本。开发前请保证阅读全文

posted @ 2022-02-09 22:21 青竹之下阅读(42) 评论(0) 推荐(0) 编辑

huaobin

公告