随笔分类 -  Spark

摘要:通用的加载和保存方式 这里的通用指的是使用相同的API,根据不同的参数读取和保存不同格式的数据,SparkSQL默认读取和保存的文件格式为parque 1. 加载数据 spark.read.load是加载数据的通用方法,支持的数据源格式: scala> spark.read. csv jdbc lo 阅读全文
posted @ 2024-09-24 17:27 一年都在冬眠 阅读(51) 评论(0) 推荐(0) 编辑
摘要:DataSet DataSet是具有强类型的数据集合,需要提供对应的类型信息 1. 创建DataSet 使用样例类序列创建DataSet scala> case class person(id:Int,name:String,age:Int) defined class person scala> 阅读全文
posted @ 2024-09-24 16:43 一年都在冬眠 阅读(27) 评论(0) 推荐(0) 编辑
摘要:DataFrame Spark SQL的DataFrame API允许我们使用DataFrame而不用必须去注册临时表或者生成SQL表达式,DataFrame API既有transformation操作也有action操作 1. 创建DataFrame 从Spark数据源进行创建 启动Spark S 阅读全文
posted @ 2024-09-24 15:55 一年都在冬眠 阅读(52) 评论(0) 推荐(0) 编辑
摘要:概述 Hive是将SQL转为MapReduce SparkSQL可以理解成是将SQL解析成:“RDD+优化”再执行 SparkSQL可以简化RDD的开发,提高开发效率,且执行效率非常快 Spark SQL为了简化RDD的开发,提高开发效率,提供了2个编程抽象,DataFrame和DataSet,类似 阅读全文
posted @ 2024-09-24 09:18 一年都在冬眠 阅读(101) 评论(0) 推荐(0) 编辑
摘要:运行架构 Spark框架的核心是一个计算引擎,采用了标准master-slave的结构 如图展示了一个Spark执行时的基本结构,Driver表示master,负责管理整个集群中的作业任务调度,Executor是slave,负责实际执行任务 核心组件 1. Driver Spark驱动器节点,用于执 阅读全文
posted @ 2024-09-23 17:38 一年都在冬眠 阅读(69) 评论(0) 推荐(0) 编辑
摘要:Yarn模式 1、解压缩文件 [user@hadoop102 software]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module [user@hadoop102 software]$ cd /opt/module [user@hadoo 阅读全文
posted @ 2024-09-23 16:44 一年都在冬眠 阅读(15) 评论(0) 推荐(0) 编辑
摘要:Local模式 不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等 在IDEA中运行代码的环境称之为开发环境 1、解压缩文件 将spark-3.0.0-bin-hadoop3.2.tgz文件上传到Linux并解压缩,放置在指定位置,路径中不要包含中文或空格 压缩文 阅读全文
posted @ 2024-09-23 11:23 一年都在冬眠 阅读(54) 评论(0) 推荐(0) 编辑
摘要:WordCount 课程学习基于scala语言,首先确保安装scala插件 增加依赖关系 修改Maven项目中的POM文件,增加Spark框架的依赖关系 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifact 阅读全文
posted @ 2024-09-20 17:00 一年都在冬眠 阅读(41) 评论(0) 推荐(0) 编辑
摘要:RDD详解 RDD持久化/缓存 某些RDD的计算或转换可能会比较耗费时间,如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存 val rdd1 = sc.textFile("hdfs://node01:8020/words.txt") val rdd2 = rdd1.flat 阅读全文
posted @ 2024-09-20 14:52 一年都在冬眠 阅读(22) 评论(0) 推荐(0) 编辑
摘要:RDD详解 前提:MapReduce框架采用非循环式的数据流模型,把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销,且这些框架只能支持一些特定的计算模式(map/reduce),并没有提供一种通用的数据抽象,因此出现了RDD这个概念 概念 RDD(Resilient Distr 阅读全文
posted @ 2024-09-20 14:00 一年都在冬眠 阅读(83) 评论(0) 推荐(0) 编辑
摘要:基本概念 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎 Spark vs Hadoop Spark和Hadoop的根本差异是多个作业之间的数据通信问题:Spark多个作业之间数据通信是基于内存,而Hadoop是基于磁盘 Hadoop Spark 类型 分布式基础平台, 包含计算, 阅读全文
posted @ 2024-09-20 09:49 一年都在冬眠 阅读(29) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示