sw_kong

2020年3月12日

摘要：介绍 LEFT SEMI JOIN （左半连接）是 IN/EXISTS 子查询的一种更高效的实现。示例 SELECT a.key, a.value FROM a WHERE a.key in (SELECT b.key FROM B); 可以改写为 SELECT a.key, a.val FROM 阅读全文

posted @ 2020-03-12 16:57 sw_kong 阅读(762) 评论(0) 推荐(0) 编辑

spark thriftserver的多用户公平调度

摘要：使用SparkThrfitServer结合Hive来做即席查询，那么会遇到这样的问题，一个数据量很大的查询SQL把所有的资源全占了，导致后面的SQL都等待，尽管在等待的SQL只需要几秒就能完成。表数据量 3亿+条，36G左右(partquet+snappy) sql语句 sql1 且不要管sql合阅读全文

posted @ 2020-03-12 11:27 sw_kong 阅读(1552) 评论(0) 推荐(0) 编辑

2020年3月10日

Spark自定义分区(Partitioner)

摘要： Spark提供了HashPartitioner和RangePartitioner两种分区策略，这两种分区策略在很多情况下都适合我们的场景。但是有些情况下，Spark内部不能符合咱们的需求，这时候我们就可以自定义分区策略。为此，Spark提供了相应的接口，我们只需要扩展Partitioner抽象类，阅读全文

posted @ 2020-03-10 14:08 sw_kong 阅读(2470) 评论(0) 推荐(0) 编辑

2020年3月9日

spark中的闭包理解

摘要：官网：http://spark.apache.org/docs/2.3.0/rdd-programming-guide.html#understanding-closures- Spark中一个非常难以理解的概念，就是在集群中分布式并行运行时操作的算子外部的变量的生命周期通常来说，这个问题跟在RD 阅读全文

posted @ 2020-03-09 14:41 sw_kong 阅读(1074) 评论(1) 推荐(1) 编辑

2020年3月8日

spark Accumulator累加器使用示例

摘要：官网 http://spark.apache.org/docs/2.3.1/rdd-programming-guide.html#accumulators http://spark.apache.org/docs/2.3.1/api/scala/index.html#org.apache.spark 阅读全文

posted @ 2020-03-08 16:57 sw_kong 阅读(1235) 评论(0) 推荐(0) 编辑

2020年3月7日

Lambda架构 vs Kappa架构

摘要： Lambda 架构 Lambda 架构由Storm的作者Nathan Marz提出，其设计目的在于提供一个能满足大数据系统关键特性的架构，包括高容错、低延迟、可扩展等。其整合离线计算与实时计算，融合不可变性、读写分离和复杂性隔离等原则，可集成Hadoop, Kafka, Spark，Storm等各类阅读全文

posted @ 2020-03-07 16:07 sw_kong 阅读(2782) 评论(0) 推荐(0) 编辑

es写入和查询的工作原理

摘要： es写数据过程 1）客户端选择一个node发送请求过去，这个node就是coordinating node（协调节点） 2）coordinating node，对document进行路由（document会自动给你分配一个全局唯一的doc id，根据doc id进行hash路由到对应的primary 阅读全文

posted @ 2020-03-07 15:58 sw_kong 阅读(1249) 评论(0) 推荐(0) 编辑

2020年3月6日

hbase整体介绍

摘要： HBASE基础 1. HBase简介 HBase是一个高可靠、高性能、面向列的，主要用于海量结构化和半结构化数据存储的分布式key-value存储系统。它基于Google Bigtable开源实现，但二者有明显的区别：Google Bigtable基于GFS存储，通过MAPREDUCE处理存储的数阅读全文

posted @ 2020-03-06 17:45 sw_kong 阅读(497) 评论(0) 推荐(0) 编辑

线程池为什么不允许使用Executors创建

摘要：合理利用线程池能够带来三个好处第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要的等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以阅读全文

posted @ 2020-03-06 16:05 sw_kong 阅读(3323) 评论(0) 推荐(1) 编辑

浅谈单链表与双链表的区别

摘要：昨天面试官面试的时候问了我一道关于链表的问题：情境如下面试官：请说一下链表跟数组的区别？我：数组静态分配内存，链表动态分配内存；数组在内存中连续，链表不连续；数组利用下标定位，时间复杂度为O(1)，链表定位元素时间复杂度O(n)；数组插入或删除元素的时间复杂度O(n)，链表的时间复杂度O(1)。阅读全文

posted @ 2020-03-06 14:32 sw_kong 阅读(796) 评论(0) 推荐(0) 编辑

公告