摘要: Spark Executor 是集群中运行在工作节点(Worker)中的一个 JVM 进程,是整个集群中 的专门用于计算的节点。在提交应用中,可以提供参数指定计算节点的个数,以及对应的资 源。这里的资源一般指的是工作节点 Executor 的内存大小和使用的虚拟 CPU 核(Core)数 量。 并行 阅读全文
posted @ 2022-02-09 22:42 青竹之下 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 在解压缩文件夹下的 data 目录中,添加 word.txt 文件。在命令行工具中执行如下代码指 令(和 IDEA 中代码简化版一致) sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).col 阅读全文
posted @ 2022-02-09 22:29 青竹之下 阅读(40) 评论(0) 推荐(0) 编辑
摘要: tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module cd /opt/module mv spark-3.0.0-bin-hadoop3.2 spark-local 进入解压缩后的路径,执行如下指令 bin/spark-shell 启动成功后, 阅读全文
posted @ 2022-02-09 22:28 青竹之下 阅读(33) 评论(0) 推荐(0) 编辑
摘要: Spark 作为一个数据处理框架和计算引擎,被设计在所有常见的集群环境中运行, 在国 内工作中主流的环境为 Yarn,不过逐渐容器式环境也慢慢流行起来。接下来,我们就分别 看看不同环境下 Spark 的运行 Local 模式 想啥呢,你之前一直在使用的模式可不是 Local 模式哟。所谓的 Loca 阅读全文
posted @ 2022-02-09 22:26 青竹之下 阅读(46) 评论(0) 推荐(0) 编辑
摘要: 如果本机操作系统是 Windows,在程序中使用了 Hadoop 相关的东西,比如写入文件到 HDFS,则会遇到如下异常: 出现这个问题的原因,并不是程序的错误,而是 windows 系统用到了 hadoop 相关的服 务,解决办法是通过配置关联到 windows 的系统依赖就可以了 在 IDEA 阅读全文
posted @ 2022-02-09 22:24 青竹之下 阅读(84) 评论(0) 推荐(0) 编辑
摘要: // 创建 Spark 运行配置对象 val sparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount") // 创建 Spark 上下文环境对象(连接对象) val sc : SparkContext = new 阅读全文
posted @ 2022-02-09 22:23 青竹之下 阅读(28) 评论(0) 推荐(0) 编辑
摘要: 创建 Maven 项目 2.1.1 增加 Scala 插件 Spark 由 Scala 语言开发的,所以本课件接下来的开发所使用的语言也为 Scala,咱们当 前使用的 Spark 版本为 3.0.0,默认采用的 Scala 编译版本为 2.12,所以后续开发时。我们依 然采用这个版本。开发前请保证 阅读全文
posted @ 2022-02-09 22:21 青竹之下 阅读(42) 评论(0) 推荐(0) 编辑