Loading~ - 博客园

2020年10月2日

摘要：转载 https://www.cnblogs.com/qingyunzong/p/8987579.html#_label4_1 sxt：spark day 05 阅读全文

posted @ 2020-10-02 14:11 Loading~ 阅读(92) 评论(0) 推荐(0) 编辑

2020年9月30日

摘要： 1.Spark master使用zookeeper进行HA的，有哪些元数据保存在Zookeeper？答：spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置，包括Worker，Driver和Application以及Exe 阅读全文

posted @ 2020-09-30 14:59 Loading~ 阅读(358) 评论(0) 推荐(0) 编辑

Spark广播变量和累加器

摘要：转载 https://www.cnblogs.com/qingyunzong/p/8890483.html#_label1_0 阅读全文

posted @ 2020-09-30 14:26 Loading~ 阅读(89) 评论(0) 推荐(0) 编辑

Spark二次排序

摘要：转载： https://www.cnblogs.com/zzhangyuhang/p/9038580.html 阅读全文

posted @ 2020-09-30 12:10 Loading~ 阅读(105) 评论(0) 推荐(0) 编辑

Spark任务调度和资源调度图解

摘要： 1、Spark中application、job、stage、task、driver/executor之间的关系一个application就是一个应用程序，包含了客户端所有的代码和计算资源一个action操作对应一个DAG有向无环图，即一个action操作就是一个job 一个job中包含了大量的宽阅读全文

posted @ 2020-09-30 09:14 Loading~ 阅读(290) 评论(0) 推荐(0) 编辑

2020年9月28日

SparkStage

摘要：转载： https://blog.csdn.net/zhyooo123/article/details/82703723 阅读全文

posted @ 2020-09-28 16:05 Loading~ 阅读(115) 评论(0) 推荐(0) 编辑

Spark提交任务的四种方式

摘要：执行流程 client模式提交任务后，会在客户端启动Driver进程。 Driver会向Master申请启动Application启动的资源。资源申请成功，Driver端将task发送到worker端执行。 worker将task执行结果返回到Driver端。总结 client模式适用于测试调试阅读全文

posted @ 2020-09-28 14:22 Loading~ 阅读(780) 评论(0) 推荐(0) 编辑

SparkCache

摘要：转载：https://blog.csdn.net/qq_27639777/article/details/82319560 Spark Cache的几点思考 Spark涵盖了大数据领域内的离线批处理、流式计算、机器学习和图计算等不同的场景，已经成为大数据计算领域首选的计算框架。由于spark框架的阅读全文

posted @ 2020-09-28 12:01 Loading~ 阅读(415) 评论(0) 推荐(0) 编辑

Spark初始

摘要：回顾MR 对比Spark 核心RDD 理解RDD 一个 RDD 可以简单的理解为一个分布式的元素集合. RDD 表示只读的分区的数据集，对 RDD 进行改动，只能通过 RDD 的转换操作, 然后得到新的 RDD, 并不会对原 RDD 有任何的影响. 在 Spark 中, 所有的工作要么是创建 RDD 阅读全文

posted @ 2020-09-28 11:48 Loading~ 阅读(120) 评论(0) 推荐(0) 编辑

2020年9月11日

Hbase和Hive的区别

摘要：一、区别： 1.Hbase即 HadoopDatabase 的简称，也就是基于Hadoop数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如交易清单、日志明细、轨迹行为等。 Hive是Hadoop的数据仓库，严格地讲并非数据库，主要是让开发人员能够通过SQL来计算阅读全文

posted @ 2020-09-11 13:54 Loading~ 阅读(373) 评论(0) 推荐(0) 编辑

No pain No gain

本博客用于知识的总结与梳理

公告