大数据学习与分享

2020年11月24日

摘要：今天先分享一些笔试中经常遇到的一些编程题，包括解题思路和代码实现，下图是本次分享的大纲阅读全文

posted @ 2020-11-24 18:23 大数据学习与分享阅读(192) 评论(0) 推荐(0) 编辑

摘要： Spark SQL是一个用来处理结构化数据的Spark组件，前身是shark，但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等，制约了Spark各个组件之间的相互集成，因此Spark SQL应运而生阅读全文

posted @ 2020-11-24 09:01 大数据学习与分享阅读(641) 评论(0) 推荐(1) 编辑

2020年11月23日

如何获取流式应用程序中checkpoint的最新offset

摘要：对于流式应用程序，保证应用7*24小时的稳定运行，是非常必要的。因此对于计算引擎，要求必须能够适应与应用程序逻辑本身无关的问题（比如driver应用失败重启、网络问题、服务器问题、JVM崩溃等），具有自动容错恢复的功能。阅读全文

posted @ 2020-11-23 15:47 大数据学习与分享阅读(254) 评论(0) 推荐(0) 编辑

Spark闭包 | driver & executor程序代码执行

摘要： Spark闭包 | driver & executor程序代码执行 ==> 编写的Spark程序代码，运行在driver端还是executor端呢？阅读全文

posted @ 2020-11-23 09:15 大数据学习与分享阅读(1435) 评论(0) 推荐(2) 编辑

2020年11月20日

Kafka高性能揭秘：sequence IO、PageCache、SendFile的应用详解

摘要：大家都知道Kafka是将数据存储于磁盘的，而磁盘读写性能往往很差，但Kafka官方测试其数据读写速率能达到600M/s，那么为什么Kafka性能会这么高呢？阅读全文

posted @ 2020-11-20 08:57 大数据学习与分享阅读(1216) 评论(0) 推荐(0) 编辑

2020年11月19日

重要 | Spark分区并行度决定机制

摘要：最近经常有小伙伴留言，核心问题都比较类似，就是虽然接触Spark有一段时间了，但是搞不明白一个问题，为什么我从HDFS上加载不同的文件时，打印的分区数不一样，并且好像spark.default.parallelism这个参数时不是一直起作用？其实笔者之前的文章已有相关介绍，想知道为什么，就必须了解Spark在加载不同的数据源时分区决定机制以及调用不用算子时并行度决定机制以及分区划分。阅读全文

posted @ 2020-11-19 09:06 大数据学习与分享阅读(1051) 评论(0) 推荐(0) 编辑

2020年11月17日

聊聊Spark的分区、并行度 —— 前奏篇

摘要：聊聊Spark的分区机制，以及通过spark.default.parallelism谈Spark并行度阅读全文

posted @ 2020-11-17 08:59 大数据学习与分享阅读(1137) 评论(0) 推荐(0) 编辑

2020年11月16日

深入探讨HBASE

摘要： HBase是一个高可靠、高性能、面向列的，主要用于海量结构化和半结构化数据存储的分布式key-value存储系统。它基于Google Bigtable开源实现，但二者有明显的区别：Google Bigtable基于GFS存储，通过MAPREDUCE处理存储的数据，通过chubby处理协同服务；而HBase底层存储基于hdfs，可以利用MapReduce、Spark等计算引擎处理其存储的数据，通过Zookeeper作为处理HBase集群协同服务阅读全文

posted @ 2020-11-16 09:02 大数据学习与分享阅读(562) 评论(0) 推荐(0) 编辑

2020年11月12日

Hive Join优化

摘要： Hive Join优化以及Hive Join的几个重要特点，在实际使用时也可以利用下列特点做相应优化阅读全文

posted @ 2020-11-12 09:09 大数据学习与分享阅读(899) 评论(0) 推荐(0) 编辑

2020年11月11日

对Spark硬件配置的建议

摘要：对于Spark开发人员来说，一个比较普遍的问题就是如何合理的配置Spark的硬件？当然如何合理的对Spark集群进行硬件配置要视情况而定，在这里给出一些建议阅读全文

posted @ 2020-11-11 10:10 大数据学习与分享阅读(766) 评论(0) 推荐(0) 编辑

公告