摘要: 今天先分享一些笔试中经常遇到的一些编程题,包括解题思路和代码实现,下图是本次分享的大纲 阅读全文
posted @ 2020-11-24 18:23 大数据学习与分享 阅读(192) 评论(0) 推荐(0) 编辑
摘要: Spark SQL是一个用来处理结构化数据的Spark组件,前身是shark,但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等,制约了Spark各个组件之间的相互集成,因此Spark SQL应运而生 阅读全文
posted @ 2020-11-24 09:01 大数据学习与分享 阅读(641) 评论(0) 推荐(1) 编辑
摘要: 对于流式应用程序,保证应用7*24小时的稳定运行,是非常必要的。因此对于计算引擎,要求必须能够适应与应用程序逻辑本身无关的问题(比如driver应用失败重启、网络问题、服务器问题、JVM崩溃等),具有自动容错恢复的功能。 阅读全文
posted @ 2020-11-23 15:47 大数据学习与分享 阅读(254) 评论(0) 推荐(0) 编辑
摘要: Spark闭包 | driver & executor程序代码执行 ==> 编写的Spark程序代码,运行在driver端还是executor端呢? 阅读全文
posted @ 2020-11-23 09:15 大数据学习与分享 阅读(1435) 评论(0) 推荐(2) 编辑
摘要: 大家都知道Kafka是将数据存储于磁盘的,而磁盘读写性能往往很差,但Kafka官方测试其数据读写速率能达到600M/s,那么为什么Kafka性能会这么高呢? 阅读全文
posted @ 2020-11-20 08:57 大数据学习与分享 阅读(1216) 评论(0) 推荐(0) 编辑
摘要: 最近经常有小伙伴留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.default.parallelism这个参数时不是一直起作用?其实笔者之前的文章已有相关介绍,想知道为什么,就必须了解Spark在加载不同的数据源时分区决定机制以及调用不用算子时并行度决定机制以及分区划分。 阅读全文
posted @ 2020-11-19 09:06 大数据学习与分享 阅读(1051) 评论(0) 推荐(0) 编辑
摘要: 聊聊Spark的分区机制,以及通过spark.default.parallelism谈Spark并行度 阅读全文
posted @ 2020-11-17 08:59 大数据学习与分享 阅读(1137) 评论(0) 推荐(0) 编辑
摘要: HBase是一个高可靠、高性能、面向列的,主要用于海量结构化和半结构化数据存储的分布式key-value存储系统。它基于Google Bigtable开源实现,但二者有明显的区别:Google Bigtable基于GFS存储,通过MAPREDUCE处理存储的数据,通过chubby处理协同服务;而HBase底层存储基于hdfs,可以利用MapReduce、Spark等计算引擎处理其存储的数据,通过Zookeeper作为处理HBase集群协同服务 阅读全文
posted @ 2020-11-16 09:02 大数据学习与分享 阅读(562) 评论(0) 推荐(0) 编辑
摘要: Hive Join优化以及Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化 阅读全文
posted @ 2020-11-12 09:09 大数据学习与分享 阅读(899) 评论(0) 推荐(0) 编辑
摘要: 对于Spark开发人员来说,一个比较普遍的问题就是如何合理的配置Spark的硬件?当然如何合理的对Spark集群进行硬件配置要视情况而定,在这里给出一些建议 阅读全文
posted @ 2020-11-11 10:10 大数据学习与分享 阅读(766) 评论(0) 推荐(0) 编辑