bdv018-spark.v03 - 随笔分类 - yanqi_vip

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

摘要：NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 14:42 yanqi_vip 阅读(7) 评论(0) 推荐(0)

|NO.Z.00111|——————————|BigDataEnd|——————————————————————————————————————

摘要：NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 14:42 yanqi_vip 阅读(15) 评论(0) 推荐(0)

|NO.Z.00110|——————————|BigDataEnd|——|Hadoop&Spark.V08|——|Spark.v08|Spark 原理源码|Spark优化|

摘要：一、Spark优化 ### 编码优化： ~~~ ① RDD复用 ~~~ ② RDD持久化 ~~~ ③ 巧用 filter ~~~ ④ 选择高性能算子 ~~~ ⑤ 设置合并的并行度 ~~~ ⑥ 广播大变量 ~~~ ⑦ Kryo序列化 ~~~ ⑧ 多使用Spark SQL ~~~ ⑨ 优化数据结构 ~~ 阅读全文

posted @ 2022-04-13 14:41 yanqi_vip 阅读(49) 评论(0) 推荐(0)

|NO.Z.00107|——————————|BigDataEnd|——|Hadoop&Spark.V05|——|Spark.v05|Spark 原理源码|BlockManager|

摘要：一、BlockManager ### BlockManager ~~~ BlockManager是一个嵌入在 Spark 中的 key-value型分布式存储系统，也是 Master-Slave 结构的， ~~~ RDD-cache、shuffle-output、broadcast 等的实现都是基于阅读全文

posted @ 2022-04-13 14:40 yanqi_vip 阅读(54) 评论(0) 推荐(0)

|NO.Z.00108|——————————|BigDataEnd|——|Hadoop&Spark.V06|——|Spark.v06|Spark 原理源码|数据倾斜&基本概念|

摘要：一、数据倾斜 ### 基本概念 ~~~ 这是我们期望的处理模式： ### 什么是数据倾斜 ~~~ Task之间数据分配的非常不均匀 ~~~ key.hashCode % reduce个数 = 分区号 ### 数据倾斜有哪些现象 ~~~ Executor lost、OOM、Shuffle过程出错、程序阅读全文

posted @ 2022-04-13 14:40 yanqi_vip 阅读(39) 评论(0) 推荐(0)

|NO.Z.00109|——————————|BigDataEnd|——|Hadoop&Spark.V07|——|Spark.v07|Spark 原理源码|数据倾斜&数据倾斜处理|

摘要：一、数据倾斜处理 ### 做好数据预处理： ~~~ 过滤key中的空值 ~~~ 消除数据源带来的数据倾斜（文件采用可切分的压缩方式） ~~~ 数据倾斜产生的主要原因：Shuffle + key分布不均 ### 处理数据倾斜的基本思路： ~~~ 消除shuffle ~~~ 减少shuffle过程中传输阅读全文

posted @ 2022-04-13 14:40 yanqi_vip 阅读(69) 评论(0) 推荐(0)

|NO.Z.00106|——————————|BigDataEnd|——|Hadoop&Spark.V04|——|Spark.v04|Spark 原理源码|内存管理&执行内存管理|

摘要：一、执行内存管理 ### 执行内存管理 ~~~ 执行内存主要用来存储任务在执行 Shuffle 时占用的内存， ~~~ Shuffle 是按照一定规则对 RDD 数据重新分区的过程， ~~~ Shuffle 的 Write 和 Read 两阶段对执行内存的使用： ### Shuffle Write 阅读全文

posted @ 2022-04-13 14:39 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00105|——————————|BigDataEnd|——|Hadoop&Spark.V03|——|Spark.v03|Spark 原理源码|内存管理&存储内存管理|

摘要：一、存储内存管理 ### 存储内存管理 ~~~ 堆内内存：系统保留(300M)、Other、存储内存、执行内存 ~~~ 堆外内存：存储内存、执行内存 ~~~ 存储内存：RDD缓存的数据 & 共享变量 ~~~ RDD的持久化 ~~~ RDD缓存的过程 ~~~ 淘汰与落盘二、RDD 持久化机制 ### 阅读全文

posted @ 2022-04-13 14:38 yanqi_vip 阅读(52) 评论(0) 推荐(0)

|NO.Z.00103|——————————|BigDataEnd|——|Hadoop&Spark.V01|——|Spark.v01|Spark 原理源码|内存管理&堆内内存与堆外内存|

摘要：一、内存管理 ### 内存管理 ~~~ 在执行 Spark 的应用程序时，Spark 集群会启动 Driver 和 Executor 两种 JVM 进程： ~~~ Driver为主控进程，负责创建 Spark 上下文，提交 Spark 作业，将作业转化为 Task， ~~~ 并在各个 Executo 阅读全文

posted @ 2022-04-12 13:56 yanqi_vip 阅读(42) 评论(0) 推荐(0)

|NO.Z.00104|——————————|BigDataEnd|——|Hadoop&Spark.V02|——|Spark.v02|Spark 原理源码|内存管理&静态内存管理&统一内存管理|

摘要：一、静态内存管理 ### 静态内存管理 ### 静态内存架构 ~~~ Spark 2.0 以前版本采用静态内存管理机制。存储内存、 ~~~ 执行内存和其他内存的大小在 Spark 应用程序运行期间均为固定的， ~~~ 但用户可以应用程序启动前进行配置，堆内内存的分配如下图所示： ### 静态内存管理阅读全文

posted @ 2022-04-12 13:56 yanqi_vip 阅读(49) 评论(0) 推荐(0)

|NO.Z.00102|——————————|BigDataEnd|——————————————————————————————————————

摘要：NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-12 13:55 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00099|——————————|BigDataEnd|——|Hadoop&Spark.V15|——|Spark.v15|Spark 原理源码|Shuffle详解&Shuffle Writer&Shuffle MapOutputTracker&Shuffle Reader|

摘要：一、Shuffle Writer ### Shuffle Writer：ShuffleWriter（抽象类），有3个具体的实现： ~~~ SortShuffleWriter。sortShulleWriter 需要在 Map 排序 ~~~ UnsafeShuffleWriter。使用 Java Uns 阅读全文

posted @ 2022-04-12 13:54 yanqi_vip 阅读(81) 评论(0) 推荐(0)

|NO.Z.00101|——————————|BigDataEnd|——|Hadoop&Spark.V16|——|Spark.v16|Spark 原理源码|Shuffle详解&Hadoop Shuffle 与 Spark Shuffle 的区别&Shuffle优化|

摘要：一、Hadoop Shuffle 与 Spark Shuffle 的区别 ### 共同点： ~~~ 二者从功能上看是相似的；从High Level来看，没有本质区别，实现（细节）上有区别 ### 实现上的区别： ~~~ Hadoop中有一个Map完成，Reduce便可以去fetch数据了，不必等到所阅读全文

posted @ 2022-04-12 13:54 yanqi_vip 阅读(46) 评论(0) 推荐(0)

|NO.Z.00098|——————————|BigDataEnd|——|Hadoop&Spark.V14|——|Spark.v14|Spark 原理源码|Shuffle详解&Sort Shuffle V1&Sort Shuffle V2|

摘要：一、Sort Shuffle V1 ### Sort Shuffle V1 ~~~ 为了更好地解决上面的问题，Spark 参考了 MapReduce 中 Shuffle 的处理方式， ~~~ 引入基于排序的 Shuffle 写操作机制。 ~~~ 每个 Task 不会为后续的每个 Task 创建单独的阅读全文

posted @ 2022-04-12 13:53 yanqi_vip 阅读(53) 评论(0) 推荐(0)

|NO.Z.00096|——————————|BigDataEnd|——|Hadoop&Spark.V12|——|Spark.v12|Spark 原理源码|Shuffle详解&Spark Shuffle的两个阶段&Spark Shuffle技术演进|

摘要：一、Shuffle详解 ### shuffle详解 ~~~ 在 Spark 或 MapReduce 分布式计算框架中，数据被分成一块一块的分区， ~~~ 分布在集群中各节点上，每个计算任务一次处理一个分区， ~~~ 当需要对具有某种共同特征的一类数据进行计算时，就需要将集群中的这类数据汇聚到同一节点阅读全文

posted @ 2022-04-12 13:53 yanqi_vip 阅读(52) 评论(0) 推荐(0)

|NO.Z.00097|——————————|BigDataEnd|——|Hadoop&Spark.V13|——|Spark.v13|Spark 原理源码|Shuffle详解&Hash Shuffle V1&Hash Shuffle V2 -- File Consolidation|

摘要：一、Hash Shuffle V1 ### Hash Shuffle V1 ~~~ 相对于传统的 MapReduce， ~~~ Spark 假定大多数情况下 Shuffle 的数据不需要排序，强制排序反而会降低性能。 ~~~ 因此不在 Shuffle Read 时做 Merge Sort，如果需要合阅读全文

posted @ 2022-04-12 13:53 yanqi_vip 阅读(38) 评论(0) 推荐(0)

随笔分类 - bdv018-spark.v03

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

|NO.Z.00111|——————————|BigDataEnd|——————————————————————————————————————

|NO.Z.00110|——————————|BigDataEnd|——|Hadoop&Spark.V08|——|Spark.v08|Spark 原理源码|Spark优化|

|NO.Z.00107|——————————|BigDataEnd|——|Hadoop&Spark.V05|——|Spark.v05|Spark 原理源码|BlockManager|

|NO.Z.00108|——————————|BigDataEnd|——|Hadoop&Spark.V06|——|Spark.v06|Spark 原理源码|数据倾斜&基本概念|

|NO.Z.00109|——————————|BigDataEnd|——|Hadoop&Spark.V07|——|Spark.v07|Spark 原理源码|数据倾斜&数据倾斜处理|

|NO.Z.00106|——————————|BigDataEnd|——|Hadoop&Spark.V04|——|Spark.v04|Spark 原理源码|内存管理&执行内存管理|

|NO.Z.00105|——————————|BigDataEnd|——|Hadoop&Spark.V03|——|Spark.v03|Spark 原理源码|内存管理&存储内存管理|

|NO.Z.00103|——————————|BigDataEnd|——|Hadoop&Spark.V01|——|Spark.v01|Spark 原理源码|内存管理&堆内内存与堆外内存|

|NO.Z.00104|——————————|BigDataEnd|——|Hadoop&Spark.V02|——|Spark.v02|Spark 原理源码|内存管理&静态内存管理&统一内存管理|

|NO.Z.00102|——————————|BigDataEnd|——————————————————————————————————————

|NO.Z.00099|——————————|BigDataEnd|——|Hadoop&Spark.V15|——|Spark.v15|Spark 原理源码|Shuffle详解&Shuffle Writer&Shuffle MapOutputTracker&Shuffle Reader|

|NO.Z.00101|——————————|BigDataEnd|——|Hadoop&Spark.V16|——|Spark.v16|Spark 原理源码|Shuffle详解&Hadoop Shuffle 与 Spark Shuffle 的区别&Shuffle优化|

|NO.Z.00098|——————————|BigDataEnd|——|Hadoop&Spark.V14|——|Spark.v14|Spark 原理源码|Shuffle详解&Sort Shuffle V1&Sort Shuffle V2|

|NO.Z.00096|——————————|BigDataEnd|——|Hadoop&Spark.V12|——|Spark.v12|Spark 原理源码|Shuffle详解&Spark Shuffle的两个阶段&Spark Shuffle技术演进|

|NO.Z.00097|——————————|BigDataEnd|——|Hadoop&Spark.V13|——|Spark.v13|Spark 原理源码|Shuffle详解&Hash Shuffle V1&Hash Shuffle V2 -- File Consolidation|

|NO.Z.00095|——————————|BigDataEnd|——|Hadoop&Spark.V11|——|Spark.v11|Spark 原理源码|作业执行原理&本地化调度&返回结果&失败重试与黑名单机制|

|NO.Z.00093|——————————|BigDataEnd|——|Hadoop&Spark.V09|——|Spark.v09|Spark 原理源码|作业执行原理&Task调度|

|NO.Z.00094|——————————|BigDataEnd|——|Hadoop&Spark.V10|——|Spark.v10|Spark 原理源码|作业执行原理&调度策略|

|NO.Z.00092|——————————|BigDataEnd|——|Hadoop&Spark.V08|——|Spark.v08|Spark 原理源码|作业执行原理&Stage划分&提交Task|

导航

公告