01 2021 档案

摘要:package com.cnn.service.HA; import com.cnn.service.ScheduledExecutorServiceDelay.ScheduledExecutorServiceDelayTask; import com.google.common.collect.C 阅读全文
posted @ 2021-01-31 18:15 大浪不惊涛 阅读(176) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming:Spark提供的,对于大数据进行实时计算的一种框架;它的底层,也是基于Spark Core的;其基本的计算模型,还是基于内存的大数据实时计算模型RDD,只不过,针对实时计算的特点,在RDD之上,进行了一层封装,叫做DStream(类似Spark SQL中的DataFr 阅读全文
posted @ 2021-01-12 17:12 大浪不惊涛 阅读(312) 评论(0) 推荐(0) 编辑
摘要:1、内存Heap Dump文件抓取 heap dump记录了JVM中堆内存运行的情况。 XX:+HeapDumpOnOutOfMemoryError​ 应用启动时配置参数,当OutOfMemoryError发生时自动生成 Heap Dump 文件。这可是一个非常有用的参数,因为当你需要分析Java内 阅读全文
posted @ 2021-01-12 17:03 大浪不惊涛 阅读(689) 评论(0) 推荐(0) 编辑
摘要:目录 一、概述 二、堆内和堆外内存规划 2.1 堆内内存 2.2 堆外内存 2.3 内存管理接口 三、内存空间分配 3.1 静态内存管理 3.2 统一内存管理 四、存储内存管理 4.1 RDD 的持久化机制 4.2 RDD 缓存的过程 4.3 淘汰和落盘 五、 执行内存管理 5.1 多任务间内存分配 阅读全文
posted @ 2021-01-12 16:43 大浪不惊涛 阅读(161) 评论(0) 推荐(0) 编辑
摘要:目录 一、概述 二、shuffle的定义 三、ShuffleManager发展概述 四、HashShuffleManager的运行原理 4.1 未经优化的HashShuffleManager 4.2 优化后的HashShuffleManager 五、SortShuffleManager运行原理 5. 阅读全文
posted @ 2021-01-12 16:27 大浪不惊涛 阅读(98) 评论(0) 推荐(0) 编辑
摘要:目录 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 某个task执行特别慢的情况 某个task莫名其妙内存溢出的情况 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二:过滤少数导致倾斜的key 解决方 阅读全文
posted @ 2021-01-12 16:13 大浪不惊涛 阅读(79) 评论(0) 推荐(0) 编辑
摘要:目录 调优概述 原则一:避免创建重复的RDD 一个简单的例子 原则二:尽可能复用同一个RDD 一个简单的例子 原则三:对多次使用的RDD进行持久化 对多次使用的RDD进行持久化的代码示例 Spark的持久化级别 如何选择一种最合适的持久化策略 原则四:尽量避免使用shuffle类算子 Broadca 阅读全文
posted @ 2021-01-12 15:09 大浪不惊涛 阅读(106) 评论(0) 推荐(0) 编辑
摘要:sparkcore是做离线批处理 sparksql 是做sql高级查询 sparkshell 是做交互式查询 sparkstreaming是做流式处理 区别: Spark Core : Spark的基础,底层的最小数据单位是:RDD ; 主要是处理一些离线(可以通过结合Spark Streaming 阅读全文
posted @ 2021-01-12 11:44 大浪不惊涛 阅读(1196) 评论(0) 推荐(0) 编辑
摘要:目录 一、Spark中的基本概念 二、Spark的运行流程 2.1 Spark的基本运行流程 三、Spark在不同集群中的运行架构 3.1 Spark on Standalone运行过程 3.2 Spark on YARN运行过程 正文 回到顶部 一、Spark中的基本概念 (1)Applicati 阅读全文
posted @ 2021-01-11 17:41 大浪不惊涛 阅读(337) 评论(0) 推荐(0) 编辑
摘要:目录 Transformation算子 基本的初始化 一、map、flatMap、mapParations、mapPartitionsWithIndex 1.1 map 1.2 flatMap 1.3 mapPartitions 1.4 mapPartitionsWithIndex 二、reduce 阅读全文
posted @ 2021-01-11 14:25 大浪不惊涛 阅读(71) 评论(0) 推荐(0) 编辑
摘要:目录 一、JDK的安装 1.1 上传安装包并解压 1.2 配置环境变量 1.3 验证Java版本 二、配置配置ssh localhost 2.1 检测 2.2 生成私钥和公钥秘钥对 2.3 将公钥添加到authorized_keys 2.4 赋予authorized_keys文件600的权限 2.5 阅读全文
posted @ 2021-01-11 14:24 大浪不惊涛 阅读(138) 评论(0) 推荐(0) 编辑
摘要:目录 一、概述 二、广播变量broadcast variable 2.1 为什么要将变量定义成广播变量? 2.2 广播变量图解 2.3 如何定义一个广播变量? 2.4 如何还原一个广播变量? 2.5 定义广播变量需要的注意点? 2.6 注意事项 三、累加器 3.1 为什么要将一个变量定义为一个累加器 阅读全文
posted @ 2021-01-11 11:54 大浪不惊涛 阅读(122) 评论(0) 推荐(0) 编辑
摘要:1. RDD 的设计与运行原理 Spark 的核心是建立在统一的抽象 RDD 之上,基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成,从而在同一个应用程序中完成大数据计算任务。 在实际应用中,存在许多迭代式算法和交互式数据挖掘工具,这些应用场景的共同之处在于不同计算阶段之间 阅读全文
posted @ 2021-01-08 18:03 大浪不惊涛 阅读(343) 评论(0) 推荐(0) 编辑
摘要:RDD 弹性分布式数据集 RDD概述 RDD论文 中文版 : http://spark.apachecn.org/paper/zh/spark-rdd.html RDD产生背景 为了解决开发人员能在大规模的集群中以一种容错的方式进行内存计算,提出了 RDD 的概念,而当前的很多框架对迭代式算法场景与 阅读全文
posted @ 2021-01-08 17:55 大浪不惊涛 阅读(547) 评论(0) 推荐(0) 编辑
摘要:任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。 初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。 Scala: 1 2 3 4 阅读全文
posted @ 2021-01-08 17:32 大浪不惊涛 阅读(820) 评论(1) 推荐(0) 编辑
摘要:目录 一、RDD的概述 1.1 什么是RDD? 1.2 RDD的属性 1.3 WordCount粗图解RDD 二、RDD的创建方式 2.1 通过读取文件生成的 2.2 通过并行化的方式创建RDD 2.3 其他方式 三、RDD编程API 3.1 Transformation 3.2 Action 3. 阅读全文
posted @ 2021-01-07 22:01 大浪不惊涛 阅读(137) 评论(0) 推荐(0) 编辑
摘要:目录 一、下载Spark安装包 1、从官网下载 2、从微软的镜像站下载 3、从清华的镜像站下载 二、安装基础 三、Spark安装过程 1、上传并解压缩 2、为安装包创建一个软连接 3、进入spark/conf修改配置文件 4、配置环境变量 四、启动 1、先启动zookeeper集群 2、在启动HDF 阅读全文
posted @ 2021-01-07 19:32 大浪不惊涛 阅读(127) 评论(0) 推荐(0) 编辑
摘要:目录 一、官网介绍 1、什么是Spark 二、Spark的四大特性 1、高效性 2、易用性 3、通用性 4、兼容性 三、Spark的组成 四、应用场景 正文 回到顶部 一、官网介绍 1、什么是Spark 官网地址:http://spark.apache.org/ Apache Spark™是用于大规 阅读全文
posted @ 2021-01-07 16:15 大浪不惊涛 阅读(96) 评论(0) 推荐(0) 编辑
摘要:IDEA中给main方法的args参数 以下为代码 public class StringToNumber { public static void main(String[] args) { double aver = 0, sum = 0, item = 0; boolean enable = 阅读全文
posted @ 2021-01-06 17:25 大浪不惊涛 阅读(4810) 评论(0) 推荐(0) 编辑
摘要:概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序。分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分,将开发程序提交到Spark local或者hadoop YARN集群运行 阅读全文
posted @ 2021-01-06 17:23 大浪不惊涛 阅读(518) 评论(0) 推荐(0) 编辑
摘要:由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。为了突出”From Scratch”的特点(都是标题没选好的缘故 阅读全文
posted @ 2021-01-06 15:08 大浪不惊涛 阅读(1055) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示