Title
摘要: 0 前置条件 主机gcw1,gcw2,gcw3 JDK 1 zk下载 华为镜像 2 上传解压 [root@gcw2 src]# tar -zxvf zookeeper-3.4.14.tar.gz -C /opt/app/ 3 配置文件修改 三台主机同样配置 [root@gcw3 src]# cd / 阅读全文
posted @ 2021-11-06 22:09 apeGcWell 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 1.1 pom文件 <properties> <maven.compiler.source>8</maven.compiler.source> <maven.compiler.target>8</maven.compiler.target> <project.build.sourceEncoding 阅读全文
posted @ 2021-11-02 23:43 apeGcWell 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 1.1 pom文件 scala版本,flink版本等等结合实际情况 <properties> <maven.compiler.source>8</maven.compiler.source> <maven.compiler.target>8</maven.compiler.target> <proj 阅读全文
posted @ 2021-10-30 23:09 apeGcWell 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 内容摘抄自《深入理解Java虚拟机 第三版》 这里讨论的是在JDK7 Update4之后的,JDK11正式发布之前的,OracleJDK中的HotSpot虚拟机所包含的全部可用的垃圾收集器 各款经典的垃圾收集器如下图3-6所示 图3-6展示了用于不同分代的收集器,如果两个收集器之间存在连线说明它们可 阅读全文
posted @ 2021-09-25 23:45 apeGcWell 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 下述操作在Spark shell中 RDD整体上分为Value 类型和 Key-Value类型。 实际使用更多的是key-value 类型的RDD,也称为PairRDD Value 类型RDD的操作基本集中在 RDD.scala 中 key-value 类型的RDD操作集中在 PairRDDFunc 阅读全文
posted @ 2021-09-25 22:43 apeGcWell 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 类型 解释 DATE 从 1970-01-01 00:00:00 UTC 开始的天数,int 值。 TIME 从 1970-01-01 00:00:00 UTC 开始天的毫秒数,int 值。 TIMESTAMP 从 1970-01-01 00:00:00 UTC 开始的毫秒数,long 值。 1.1 阅读全文
posted @ 2021-09-24 13:12 apeGcWell 阅读(831) 评论(0) 推荐(0) 编辑
摘要: Action 用来触发RDD的计算,得到相关计算结果 Action触发Job。一个Spark程序(Driver程序)包含了多少 Action 算子,那么 就有多少Job; 典型的Action算子: collect / count collect() => sc.runJob() => ... => 阅读全文
posted @ 2021-09-23 23:39 apeGcWell 阅读(621) 评论(0) 推荐(0) 编辑
摘要: 1 Transformation 算子 RDD的操作算子分为两类: Transformation。用来对RDD进行转化,这个操作时延迟执行的(或者说是 Lazy 的);返回一个新的RDD Action。用来触发RDD的计算;得到相关计算结果 或者 将结果保存的外部系统 中;返回结果int、doubl 阅读全文
posted @ 2021-09-23 23:38 apeGcWell 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 1 RDD 介绍 Resilient Distributed Dataset (RDD), 弹性分布式数据集 RDD 是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合 RDD包含5个特征: 一个分区的列表 一个计算函数compute,对每个分区进行计算 对其他RDDs的依赖(宽依赖 阅读全文
posted @ 2021-09-23 23:37 apeGcWell 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 1 spark的standalone的部署 Spark支持3种集群部署模式:Standalone、Yarn、Mesos; Standalone模式 独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源 管理系统。从一定程度上说,该模式是其他两种的基础 Cluster Manager 阅读全文
posted @ 2021-09-23 00:14 apeGcWell 阅读(205) 评论(0) 推荐(0) 编辑