宁君 - 博客园

2020年11月19日

摘要：作者：十一喵先森链接：https://juejin.im/post/5e1c414fe51d451cad4111d1 来源：掘金著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。对上文的总结 Spark 任务调度概述一个Spark应用程序包括Job、Stage以及Task三阅读全文

posted @ 2020-11-19 10:59 宁君阅读(157) 评论(0) 推荐(0) 编辑

Spark内核-内存管理

摘要： Spark 集群会启动 Driver 和 Executor 两种 JVM 进程我们只关注Executor的内存. 分为堆内内存和堆外内存内存分为存储内存 : 存储数据用的. 执行内存: 执行shuffle时占用的. 其他内存: 用户自定义的对象. 堆内内存这是由jvm管理.spark自己不知阅读全文

posted @ 2020-11-19 10:57 宁君阅读(89) 评论(0) 推荐(0) 编辑

Spark内核-部署模式

摘要： Master URL Meaning local 在本地运行，只有一个工作进程，无并行计算能力。 local[K] 在本地运行，有K个工作进程，通常设置K为机器的CPU核心数量。 local[*] 在本地运行，工作进程数量等于机器的CPU核心数量。 spark://HOST:PORT 以Standa 阅读全文

posted @ 2020-11-19 10:56 宁君阅读(169) 评论(0) 推荐(0) 编辑

Spark参数优化

摘要：提升Spark运行 spark.sql.adaptive.enabled=true spark的自适应执行,启动Adaptive Execution spark.dynamicAllocation.enabled=true 开启动态资源分配，Spark可以根据当前作业的负载动态申请和释放资源 spa 阅读全文

posted @ 2020-11-19 10:51 宁君阅读(2067) 评论(0) 推荐(1) 编辑

Spark性能优化指南

摘要： 1 Spark开发调优篇原则一：避免创建重复的RDD 原则二：尽可能复用同一个RDD 原则三：对多次使用的RDD进行持久化原则四：尽量避免使用shuffle类算子因此在我们的开发过程中，能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行sh 阅读全文

posted @ 2020-11-19 10:50 宁君阅读(300) 评论(0) 推荐(1) 编辑

2020年11月17日

Durid的特点

摘要： Durid的特点 1.为什么会有Durid? 创建Druid的最初意图主要是为了解决查询延迟问题，当时试图使用Hadoop来实现交互式查询分析，但是很难满足实时分析的需要。而Druid提供了以交互方式访问数据的能力，并权衡了查询的灵活性和性能而采取了特殊的存储格式。 2.Durid的优点. 在高并发阅读全文

posted @ 2020-11-17 18:46 宁君阅读(412) 评论(0) 推荐(0) 编辑

优秀博客地址

摘要：尚硅谷大数据的各种知识 https://zhenchao125.github.io/ https://github.com/zhenchao125 阅读全文

posted @ 2020-11-17 17:38 宁君阅读(81) 评论(0) 推荐(0) 编辑

Kylin的特点

摘要： Kylin的特点 0.原理从Hive读取数据,计算引擎可以用MapReduce 或者Spark, 把结果写入Hbase. 下次查询就会很快,也就是所谓的预计算. 1.为什么会有Kylin? hive查询太慢了 2.Kylin的优点. 写SQL查询,结果预聚合. 有可视化页面 3.什么时候可以用Ky 阅读全文

posted @ 2020-11-17 16:27 宁君阅读(934) 评论(0) 推荐(0) 编辑

Kudu的特点

摘要： Kudu的特点 0.原理列式存储管理器一个列式存储数据的地方,跟mysql差不多,只是mysql是行式存储. 他是一个集群,能分布式存储. 查询也是写sql语句. 列式存储效率高. 1.为什么会有Kudu? hive读写数据快,分析数据慢 hbase 分析数据快,读写慢. 上面两个是极端,kud 阅读全文

posted @ 2020-11-17 16:24 宁君阅读(827) 评论(0) 推荐(0) 编辑

Impala的特点

摘要： Impala的特点 0. 原理基于内存的分析框架. 1.为什么会有Impala? hive进行计算太慢了,于是就有了Impala,Impala可以理解为是hive的内存版本. 2.Impala的优点. hive的升级版本,完全基于内存计算会hive 就会Impala 3.什么时候可以用Impal 阅读全文

posted @ 2020-11-17 16:23 宁君阅读(288) 评论(0) 推荐(0) 编辑

宁君

公告