随笔档案「2021年1月」 - 大浪不惊涛

双机热备方案

摘要：package com.cnn.service.HA; import com.cnn.service.ScheduledExecutorServiceDelay.ScheduledExecutorServiceDelayTask; import com.google.common.collect.C 阅读全文

posted @ 2021-01-31 18:15 大浪不惊涛阅读(197) 评论(0) 推荐(0)

Spark Streaming（一）：DStream

摘要：Spark Streaming：Spark提供的，对于大数据进行实时计算的一种框架；它的底层，也是基于Spark Core的；其基本的计算模型，还是基于内存的大数据实时计算模型RDD，只不过，针对实时计算的特点，在RDD之上，进行了一层封装，叫做DStream（类似Spark SQL中的DataFr 阅读全文

posted @ 2021-01-12 17:12 大浪不惊涛阅读(354) 评论(0) 推荐(0)

JVM Heap dump和Thread dump

摘要：1、内存Heap Dump文件抓取 heap dump记录了JVM中堆内存运行的情况。 XX:+HeapDumpOnOutOfMemoryError 应用启动时配置参数，当OutOfMemoryError发生时自动生成 Heap Dump 文件。这可是一个非常有用的参数，因为当你需要分析Java内阅读全文

posted @ 2021-01-12 17:03 大浪不惊涛阅读(787) 评论(0) 推荐(0)

Spark学习之路十一、SparkCore的调优之Spark内存模型

摘要：目录一、概述二、堆内和堆外内存规划 2.1　堆内内存 2.2　堆外内存 2.3　内存管理接口三、内存空间分配 3.1　静态内存管理 3.2　统一内存管理四、存储内存管理 4.1　RDD 的持久化机制 4.2　RDD 缓存的过程 4.3　淘汰和落盘五、执行内存管理 5.1　多任务间内存分配阅读全文

posted @ 2021-01-12 16:43 大浪不惊涛阅读(184) 评论(0) 推荐(0)

Spark学习之路十、SparkCore的调优之Shuffle调优

摘要：目录一、概述二、shuffle的定义三、ShuffleManager发展概述四、HashShuffleManager的运行原理 4.1　未经优化的HashShuffleManager 4.2　优化后的HashShuffleManager 五、SortShuffleManager运行原理 5. 阅读全文

posted @ 2021-01-12 16:27 大浪不惊涛阅读(132) 评论(0) 推荐(0)

Spark学习之路九、SparkCore的调优之数据倾斜调优

摘要：目录调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一：使用Hive ETL预处理数据解决方案二：过滤少数导致倾斜的key 解决方阅读全文

posted @ 2021-01-12 16:13 大浪不惊涛阅读(98) 评论(0) 推荐(0)

Spark学习之路八、SparkCore的调优之开发调优

摘要：目录调优概述原则一：避免创建重复的RDD 一个简单的例子原则二：尽可能复用同一个RDD 一个简单的例子原则三：对多次使用的RDD进行持久化对多次使用的RDD进行持久化的代码示例 Spark的持久化级别如何选择一种最合适的持久化策略原则四：尽量避免使用shuffle类算子 Broadca 阅读全文

posted @ 2021-01-12 15:09 大浪不惊涛阅读(125) 评论(0) 推荐(0)

Spark Core、Spark Sql、Spark Streaming 联系与区别

摘要：sparkcore是做离线批处理 sparksql 是做sql高级查询 sparkshell 是做交互式查询 sparkstreaming是做流式处理区别： Spark Core ： Spark的基础，底层的最小数据单位是：RDD ; 主要是处理一些离线(可以通过结合Spark Streaming 阅读全文

posted @ 2021-01-12 11:44 大浪不惊涛阅读(1247) 评论(0) 推荐(0)

Spark学习之路七、Spark 运行流程

摘要：目录一、Spark中的基本概念二、Spark的运行流程 2.1　Spark的基本运行流程三、Spark在不同集群中的运行架构 3.1　Spark on Standalone运行过程 3.2　Spark on YARN运行过程正文回到顶部一、Spark中的基本概念（1）Applicati 阅读全文

posted @ 2021-01-11 17:41 大浪不惊涛阅读(369) 评论(0) 推荐(0)

Spark学习之路六、Spark Transformation和Action

摘要：目录 Transformation算子基本的初始化一、map、flatMap、mapParations、mapPartitionsWithIndex 1.1　map 1.2　flatMap 1.3　mapPartitions 1.4　mapPartitionsWithIndex 二、reduce 阅读全文

posted @ 2021-01-11 14:25 大浪不惊涛阅读(92) 评论(0) 推荐(0)

Spark学习之路五、Spark伪分布式安装

摘要：目录一、JDK的安装 1.1　上传安装包并解压 1.2　配置环境变量 1.3　验证Java版本二、配置配置ssh localhost 2.1　检测 2.2　生成私钥和公钥秘钥对 2.3　将公钥添加到authorized_keys 2.4　赋予authorized_keys文件600的权限 2.5 阅读全文

posted @ 2021-01-11 14:24 大浪不惊涛阅读(164) 评论(0) 推荐(0)

Spark学习之路四、Spark的广播变量和累加器

摘要：目录一、概述二、广播变量broadcast variable 2.1　为什么要将变量定义成广播变量？ 2.2　广播变量图解 2.3　如何定义一个广播变量？ 2.4　如何还原一个广播变量？ 2.5　定义广播变量需要的注意点？ 2.6　注意事项三、累加器 3.1　为什么要将一个变量定义为一个累加器阅读全文

posted @ 2021-01-11 11:54 大浪不惊涛阅读(142) 评论(0) 推荐(0)

Spark 中 RDD的运行机制

摘要：1. RDD 的设计与运行原理 Spark 的核心是建立在统一的抽象 RDD 之上，基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成，从而在同一个应用程序中完成大数据计算任务。在实际应用中，存在许多迭代式算法和交互式数据挖掘工具，这些应用场景的共同之处在于不同计算阶段之间阅读全文

posted @ 2021-01-08 18:03 大浪不惊涛阅读(371) 评论(0) 推荐(0)

Spark 中 RDD 的详细介绍

摘要：RDD 弹性分布式数据集 RDD概述 RDD论文中文版 : http://spark.apachecn.org/paper/zh/spark-rdd.html RDD产生背景为了解决开发人员能在大规模的集群中以一种容错的方式进行内存计算，提出了 RDD 的概念，而当前的很多框架对迭代式算法场景与阅读全文

posted @ 2021-01-08 17:55 大浪不惊涛阅读(571) 评论(0) 推荐(0)

SparkConf和SparkContext

摘要：任何Spark程序都是SparkContext开始的，SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数。初始化后，就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。 Scala： 1 2 3 4 阅读全文

posted @ 2021-01-08 17:32 大浪不惊涛阅读(888) 评论(1) 推荐(0)

Spark学习之路三、Spark之RDD

摘要：目录一、RDD的概述 1.1　什么是RDD？ 1.2　RDD的属性 1.3　WordCount粗图解RDD 二、RDD的创建方式 2.1　通过读取文件生成的 2.2　通过并行化的方式创建RDD 2.3　其他方式三、RDD编程API 3.1　Transformation 3.2　Action 3. 阅读全文

posted @ 2021-01-07 22:01 大浪不惊涛阅读(155) 评论(0) 推荐(0)

Spark学习之路二、Spark HA集群的分布式安装

摘要：目录一、下载Spark安装包 1、从官网下载 2、从微软的镜像站下载 3、从清华的镜像站下载二、安装基础三、Spark安装过程 1、上传并解压缩 2、为安装包创建一个软连接 3、进入spark/conf修改配置文件 4、配置环境变量四、启动 1、先启动zookeeper集群 2、在启动HDF 阅读全文

posted @ 2021-01-07 19:32 大浪不惊涛阅读(173) 评论(0) 推荐(0)

Spark学习之路一、Spark初识

摘要：目录一、官网介绍 1、什么是Spark 二、Spark的四大特性 1、高效性 2、易用性 3、通用性 4、兼容性三、Spark的组成四、应用场景正文回到顶部一、官网介绍 1、什么是Spark 官网地址：http://spark.apache.org/ Apache Spark™是用于大规阅读全文

posted @ 2021-01-07 16:15 大浪不惊涛阅读(115) 评论(0) 推荐(0)

IDEA中给main方法的args传参

摘要：IDEA中给main方法的args参数以下为代码 public class StringToNumber { public static void main(String[] args) { double aver = 0, sum = 0, item = 0; boolean enable = 阅读全文

posted @ 2021-01-06 17:25 大浪不惊涛阅读(5091) 评论(0) 推荐(0)

spark (Java API) 在Intellij IDEA中开发并运行

摘要：概述：Spark 程序开发，调试和运行，intellij idea开发Spark java程序。分两部分，第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分，将开发程序提交到Spark local或者hadoop YARN集群运行阅读全文

posted @ 2021-01-06 17:23 大浪不惊涛阅读(589) 评论(0) 推荐(0)

Spark在Windows下的环境搭建

摘要：由于Spark是用Scala来写的，所以Spark对Scala肯定是原生态支持的，因此这里以Scala为主来介绍Spark环境的搭建，主要包括四个步骤，分别是：JDK的安装，Scala的安装，Spark的安装，Hadoop的下载和配置。为了突出”From Scratch”的特点（都是标题没选好的缘故阅读全文

posted @ 2021-01-06 15:08 大浪不惊涛阅读(1103) 评论(0) 推荐(0)

大浪不惊涛

01 2021 档案

公告