spark - 随笔分类 - hdc520

Spark的BlockManager数据存储与管理机制

摘要：一、概述 BlockManager是整个Spark底层负责数据存储与管理的一个组件，Driver和Executor的所有数据都由相应节点上的BlockManager进行管理。（1）driver端上的存储与管理 Driver上有BlockManagerMaster，负责对各个节点上的BlockMan 阅读全文

posted @ 2020-09-16 10:46 hdc520 阅读(359) 评论(0) 推荐(0) 编辑

spark与flink的区别

摘要：（1）设计理念 1、Spark的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个批次,通过分布式数据集RDD进行批量处理,是一种伪实时。 2、Flink是基于事件驱动的，是面向流的处理框架, Flink基于每个事件一行一行地流式处理，是真正的流式计算. 阅读全文

posted @ 2020-06-29 10:16 hdc520 阅读(11998) 评论(0) 推荐(2) 编辑

spark的shuffle过程

摘要：（1）shuffle的概述 Shuffle描述着数据从map task输出到reduce task输入的这段过程。因为是分布式存储，reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消耗和内存，磁盘IO的消耗。通常shuffle分为两部分：Map阶段的数阅读全文

posted @ 2020-05-07 16:30 hdc520 阅读(1098) 评论(0) 推荐(0) 编辑

Hive以及spark的Join过程

摘要：Join大致包括三个要素：Join方式、Join条件以及过滤条件。其中过滤条件也可以通过AND语句放在Join条件中。二、Hive/MR中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。介绍两种join的原理和机制。（1）Com 阅读全文

posted @ 2020-04-28 10:41 hdc520 阅读(1779) 评论(0) 推荐(0) 编辑

Spark面试整理

摘要：一、spark的优势： 1、每一个作业独立调度，可以把所有的作业做一个图进行调度，各个作业之间相互依赖，在调度过程中一起调度，速度快。 2、所有过程都基于内存，所以通常也将Spark称作是基于内存的迭代式运算框架。 3、spark提供了更丰富的算子，让操作更方便。二、为什么Spark比Map Re 阅读全文

posted @ 2020-03-28 17:29 hdc520 阅读(2944) 评论(0) 推荐(2) 编辑

Spark的二次排序以及aggregate

摘要：一、二次排序（1）输入与输出（2）需求：数据如file1.txt，要求根据第一列降序，如果第一列相等，则根据第二列升序分析：平时所使用的键值对是不具有比较意义的，也就说他们没法拿来直接比较，可以通过sortByKey，sortBy(pair._2)来进行单列的排序，但是没法进行两列的同时排序。阅读全文

posted @ 2019-12-26 10:01 hdc520 阅读(466) 评论(0) 推荐(0) 编辑

spark与Hadoop的区别

摘要：1. Mapreduce和Spark的相同和区别两者都是用mr模型来进行并行计算 hadoop的一个作业：job job分为map task和reduce task，每个task都是在自己的进程中运行的当task结束时，进程也会结束 spark用户提交的任务：application 一个appl 阅读全文

posted @ 2019-08-28 17:08 hdc520 阅读(697) 评论(0) 推荐(0) 编辑

spark大数据快速分析第二章

摘要：1、驱动程序通过一个SparkContext对象来访问Spark，此对象代表对计算集群的一个连接。shell已经自动创建了一个SparkContext对象。利用SparkContext对象来创建一个RDD 2、spark和mapreduce区别 mapreduce分为两个阶段map和reduce，两阅读全文

posted @ 2019-07-25 19:09 hdc520 阅读(313) 评论(0) 推荐(0) 编辑

spark的知识的链接

摘要：IDEA 创建scala spark的Mvn项目：https://blog.csdn.net/u014646662/article/details/84618032 Spark详解03Job 物理执行图：https://www.jianshu.com/p/c1ee13c50b7a Spark Sta 阅读全文

posted @ 2019-07-25 10:05 hdc520 阅读(182) 评论(0) 推荐(0) 编辑

spark数据分析导论

摘要：1、spark的定义 spark是一个用来实现快速而通用的集群计算平台，高效的支持更多计算模式，包括交互式查询和流处理。主要特点就是能够在内存中进行计算，即使在磁盘上进行计算依然比mapreduce更加高效。 2、spark的软件栈（1）Spark Core实现Spark的基本功能，包括任务调度阅读全文

posted @ 2019-07-12 11:04 hdc520 阅读(231) 评论(0) 推荐(0) 编辑

hdc520

随笔分类 - spark