随笔分类 -  spark

spark快速大数据分析分析导论读书笔记
Spark的BlockManager数据存储与管理机制
摘要:一、概述 BlockManager是整个Spark底层负责数据存储与管理的一个组件,Driver和Executor的所有数据都由相应节点上的BlockManager进行管理。 (1)driver端上的存储与管理 Driver上有BlockManagerMaster,负责对各个节点上的BlockMan 阅读全文

posted @ 2020-09-16 10:46 hdc520 阅读(359) 评论(0) 推荐(0) 编辑

spark与flink的区别
摘要:(1)设计理念 1、Spark的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个批次,通过分布式数据集RDD进行批量处理,是一种伪实时。 2、Flink是基于事件驱动的,是面向流的处理框架, Flink基于每个事件一行一行地流式处理,是真正的流式计算. 阅读全文

posted @ 2020-06-29 10:16 hdc520 阅读(11998) 评论(0) 推荐(2) 编辑

spark的shuffle过程
摘要:(1)shuffle的概述 Shuffle描述着数据从map task输出到reduce task输入的这段过程。因为是分布式存储,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消耗和内存,磁盘IO的消耗。通常shuffle分为两部分:Map阶段的数 阅读全文

posted @ 2020-05-07 16:30 hdc520 阅读(1098) 评论(0) 推荐(0) 编辑

Hive以及spark的Join过程
摘要:Join大致包括三个要素:Join方式、Join条件以及过滤条件。其中过滤条件也可以通过AND语句放在Join条件中。 二、Hive/MR中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。介绍两种join的原理和机制。 (1)Com 阅读全文

posted @ 2020-04-28 10:41 hdc520 阅读(1779) 评论(0) 推荐(0) 编辑

Spark面试整理
摘要:一、spark的优势: 1、每一个作业独立调度,可以把所有的作业做一个图进行调度,各个作业之间相互依赖,在调度过程中一起调度,速度快。 2、所有过程都基于内存,所以通常也将Spark称作是基于内存的迭代式运算框架。 3、spark提供了更丰富的算子,让操作更方便。 二、为什么Spark比Map Re 阅读全文

posted @ 2020-03-28 17:29 hdc520 阅读(2944) 评论(0) 推荐(2) 编辑

Spark的二次排序以及aggregate
摘要:一、二次排序 (1)输入与输出 (2)需求:数据如file1.txt,要求根据第一列降序,如果第一列相等,则根据第二列升序 分析:平时所使用的键值对是不具有比较意义的,也就说他们没法拿来直接比较,可以通过sortByKey,sortBy(pair._2)来进行单列的排序,但是没法进行两列的同时排序。 阅读全文

posted @ 2019-12-26 10:01 hdc520 阅读(466) 评论(0) 推荐(0) 编辑

spark与Hadoop的区别
摘要:1. Mapreduce和Spark的相同和区别 两者都是用mr模型来进行并行计算 hadoop的一个作业:job job分为map task和reduce task,每个task都是在自己的进程中运行的 当task结束时,进程也会结束 spark用户提交的任务:application 一个appl 阅读全文

posted @ 2019-08-28 17:08 hdc520 阅读(697) 评论(0) 推荐(0) 编辑

spark大数据快速分析第二章
摘要:1、驱动程序通过一个SparkContext对象来访问Spark,此对象代表对计算集群的一个连接。shell已经自动创建了一个SparkContext对象。利用SparkContext对象来创建一个RDD 2、spark和mapreduce区别 mapreduce分为两个阶段map和reduce,两 阅读全文

posted @ 2019-07-25 19:09 hdc520 阅读(313) 评论(0) 推荐(0) 编辑

spark的知识的链接
摘要:IDEA 创建scala spark的Mvn项目:https://blog.csdn.net/u014646662/article/details/84618032 Spark详解03Job 物理执行图:https://www.jianshu.com/p/c1ee13c50b7a Spark Sta 阅读全文

posted @ 2019-07-25 10:05 hdc520 阅读(182) 评论(0) 推荐(0) 编辑

spark数据分析导论
摘要:1、spark的定义 spark是一个用来实现快速而通用的集群计算平台,高效的支持更多计算模式,包括交互式查询和流处理。 主要特点就是能够在内存中进行计算,即使在磁盘上进行计算依然比mapreduce更加高效。 2、spark的软件栈 (1)Spark Core实现Spark的基本功能,包括任务调度 阅读全文

posted @ 2019-07-12 11:04 hdc520 阅读(231) 评论(0) 推荐(0) 编辑

导航