摘要: 作者:十一喵先森 链接:https://juejin.im/post/5e1c414fe51d451cad4111d1 来源:掘金 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 对上文的总结 Spark 任务调度概述 一个Spark应用程序包括Job、Stage以及Task三 阅读全文
posted @ 2020-11-19 10:59 宁君 阅读(152) 评论(0) 推荐(0) 编辑
摘要: Spark 集群会启动 Driver 和 Executor 两种 JVM 进程 我们只关注Executor的内存. 分为堆内内存和堆外内存 内存分为 存储内存 : 存储数据用的. 执行内存: 执行shuffle时占用的. 其他内存: 用户自定义的对象. 堆内内存 这是由jvm管理.spark自己不知 阅读全文
posted @ 2020-11-19 10:57 宁君 阅读(86) 评论(0) 推荐(0) 编辑
摘要: Master URL Meaning local 在本地运行,只有一个工作进程,无并行计算能力。 local[K] 在本地运行,有K个工作进程,通常设置K为机器的CPU核心数量。 local[*] 在本地运行,工作进程数量等于机器的CPU核心数量。 spark://HOST:PORT 以Standa 阅读全文
posted @ 2020-11-19 10:56 宁君 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 提升Spark运行 spark.sql.adaptive.enabled=true spark的自适应执行,启动Adaptive Execution spark.dynamicAllocation.enabled=true 开启动态资源分配,Spark可以根据当前作业的负载动态申请和释放资源 spa 阅读全文
posted @ 2020-11-19 10:51 宁君 阅读(1938) 评论(0) 推荐(1) 编辑
摘要: 1 Spark开发调优篇 原则一:避免创建重复的RDD 原则二:尽可能复用同一个RDD 原则三:对多次使用的RDD进行持久化 原则四:尽量避免使用shuffle类算子 因此在我们的开发过程中,能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行sh 阅读全文
posted @ 2020-11-19 10:50 宁君 阅读(295) 评论(0) 推荐(1) 编辑
摘要: Durid的特点 1.为什么会有Durid? 创建Druid的最初意图主要是为了解决查询延迟问题,当时试图使用Hadoop来实现交互式查询分析,但是很难满足实时分析的需要。而Druid提供了以交互方式访问数据的能力,并权衡了查询的灵活性和性能而采取了特殊的存储格式。 2.Durid的优点. 在高并发 阅读全文
posted @ 2020-11-17 18:46 宁君 阅读(393) 评论(0) 推荐(0) 编辑
摘要: 尚硅谷大数据的各种知识 https://zhenchao125.github.io/ https://github.com/zhenchao125 阅读全文
posted @ 2020-11-17 17:38 宁君 阅读(81) 评论(0) 推荐(0) 编辑
摘要: Kylin的特点 0.原理 从Hive读取数据,计算引擎可以用MapReduce 或者Spark, 把结果写入Hbase. 下次查询就会很快,也就是所谓的预计算. 1.为什么会有Kylin? hive查询太慢了 2.Kylin的优点. 写SQL查询,结果预聚合. 有可视化页面 3.什么时候可以用Ky 阅读全文
posted @ 2020-11-17 16:27 宁君 阅读(913) 评论(0) 推荐(0) 编辑
摘要: Kudu的特点 0.原理 列式存储管理器 一个列式存储数据的地方,跟mysql差不多,只是mysql是行式存储. 他是一个集群,能分布式存储. 查询也是写sql语句. 列式存储效率高. 1.为什么会有Kudu? hive读写数据快,分析数据慢 hbase 分析数据快,读写慢. 上面两个是极端,kud 阅读全文
posted @ 2020-11-17 16:24 宁君 阅读(802) 评论(0) 推荐(0) 编辑
摘要: Impala的特点 0. 原理 基于内存的分析框架. 1.为什么会有Impala? hive进行计算太慢了,于是就有了Impala,Impala可以理解为是hive的内存版本. 2.Impala的优点. hive的升级版本,完全基于内存计算 会hive 就会Impala 3.什么时候可以用Impal 阅读全文
posted @ 2020-11-17 16:23 宁君 阅读(282) 评论(0) 推荐(0) 编辑