上一页 1 ··· 24 25 26 27 28 29 30 31 32 ··· 45 下一页
摘要: 1、Stage任务划分 DAG有向无环图:DAG(Directed Acyclic Graph)有向无环图是由点和线组成的拓扑图形,该图形具有方向,不会闭环。原始的RDD通过一系列的转换就形成了DAG,根据RDD之间的依赖关系的不同将DAG划分成不同的Stage,对于窄依赖,partition的转换 阅读全文
posted @ 2022-06-02 20:23 晓枫的春天 阅读(458) 评论(0) 推荐(0) 编辑
摘要: 1、血缘关系&依赖关系 RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。 血缘关系 阅读全文
posted @ 2022-05-30 05:45 晓枫的春天 阅读(64) 评论(0) 推荐(0) 编辑
摘要: 环境准备 1、pom 文件引入相关依赖&插件 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0</versio 阅读全文
posted @ 2022-05-27 22:18 晓枫的春天 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 问题引入 想看一个需求:定义一个 用户类,有一个name 属性和toSting方法: class User { var name: String = _ override def toString: String = s"User{$name}" } 现在要声明两个对象并给name 属性赋值,然后将 阅读全文
posted @ 2022-05-26 20:53 晓枫的春天 阅读(45) 评论(0) 推荐(0) 编辑
摘要: 1、Driver & Executor Driver & Executor 是Spark 集群中两个非常重要的角色; 2、Standalone 模式 Standalone模式是Spark自带的资源调动引擎,构建一个由Master + Slave构成的Spark集群,Spark运行在集群中。这个要和H 阅读全文
posted @ 2022-05-24 15:52 晓枫的春天 阅读(1531) 评论(0) 推荐(0) 编辑
摘要: 设置快捷键的原因 近期在梳理Spark ,为了便于获取上下文对象:即以下代码 //获取 SparkConf 并设置应用名称*本地模式 val conf: SparkConf = new SparkConf().setAppName("Spark").setMaster("local[8]") //获 阅读全文
posted @ 2022-05-23 07:26 晓枫的春天 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 1、Spark 运行模式说明 部署Spark集群大体上分为两种模式:单机模式与集群模式;大多数分布式框架都支持单机模式,方便开发者调试框架的运行环境。但是在生产环境中,并不会使用单机模式。因此,后续直接按照集群模式部署Spark集群。下面详细列举了Spark目前支持的部署模式。 Local模式:在本 阅读全文
posted @ 2022-05-22 22:40 晓枫的春天 阅读(808) 评论(0) 推荐(0) 编辑
摘要: 1、Phoenix 简介 Phoenix 是 Hbase 的开源的 SQL 皮肤,可以使用标准的JDBC API 代替HBase 客户端 API来创建表,插入和查询Hbase数据. Phoenix 特点: 易集成:如 Spark,Hive,Pig,Flume 等 操作进度:DML/DDL 支持和SQ 阅读全文
posted @ 2022-05-21 20:53 晓枫的春天 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 1、引入依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>2.4.11</version> </dependency> <dependency> <gr 阅读全文
posted @ 2022-05-20 11:26 晓枫的春天 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 1、架构原理 StoreFile:保存实际数据的物理文件,StoreFile以HFile的形式存储在HDFS上。每个Store会有一个或多个StoreFile(HFile),数据在每个StoreFile中都是有序的。 MemStore:写缓存,由于HFile中的数据要求是有序的,所以数据是先存储在M 阅读全文
posted @ 2022-05-19 21:00 晓枫的春天 阅读(117) 评论(0) 推荐(1) 编辑
上一页 1 ··· 24 25 26 27 28 29 30 31 32 ··· 45 下一页