上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 14 下一页
摘要: 介绍 LEFT SEMI JOIN (左半连接)是 IN/EXISTS 子查询的一种更高效的实现。 示例 SELECT a.key, a.value FROM a WHERE a.key in (SELECT b.key FROM B); 可以改写为 SELECT a.key, a.val FROM 阅读全文
posted @ 2020-03-12 16:57 sw_kong 阅读(730) 评论(0) 推荐(0) 编辑
摘要: 使用SparkThrfitServer结合Hive来做即席查询,那么会遇到这样的问题,一个数据量很大的查询SQL把所有的资源全占了,导致后面的SQL都等待,尽管在等待的SQL只需要几秒就能完成。 表数据量 3亿+条,36G左右(partquet+snappy) sql语句 sql1 且不要管sql合 阅读全文
posted @ 2020-03-12 11:27 sw_kong 阅读(1534) 评论(0) 推荐(0) 编辑
摘要: Spark提供了HashPartitioner和RangePartitioner两种分区策略 ,这两种分区策略在很多情况下都适合我们的场景。但是有些情况下,Spark内部不能符合咱们的需求,这时候我们就可以自定义分区策略。为此,Spark提供了相应的接口,我们只需要扩展Partitioner抽象类, 阅读全文
posted @ 2020-03-10 14:08 sw_kong 阅读(2421) 评论(0) 推荐(0) 编辑
摘要: 官网:http://spark.apache.org/docs/2.3.0/rdd-programming-guide.html#understanding-closures- Spark中一个非常难以理解的概念,就是在集群中分布式并行运行时操作的算子外部的变量的生命周期 通常来说,这个问题跟在RD 阅读全文
posted @ 2020-03-09 14:41 sw_kong 阅读(1067) 评论(1) 推荐(1) 编辑
摘要: 官网 http://spark.apache.org/docs/2.3.1/rdd-programming-guide.html#accumulators http://spark.apache.org/docs/2.3.1/api/scala/index.html#org.apache.spark 阅读全文
posted @ 2020-03-08 16:57 sw_kong 阅读(1206) 评论(0) 推荐(0) 编辑
摘要: Lambda 架构 Lambda 架构由Storm的作者Nathan Marz提出,其设计目的在于提供一个能满足大数据系统关键特性的架构,包括高容错、低延迟、可扩展等。其整合离线计算与实时计算,融合不可变性、读写分离和复杂性隔离等原则,可集成Hadoop, Kafka, Spark,Storm等各类 阅读全文
posted @ 2020-03-07 16:07 sw_kong 阅读(2772) 评论(0) 推荐(0) 编辑
摘要: es写数据过程 1)客户端选择一个node发送请求过去,这个node就是coordinating node(协调节点) 2)coordinating node,对document进行路由(document会自动给你分配一个全局唯一的doc id,根据doc id进行hash路由到对应的primary 阅读全文
posted @ 2020-03-07 15:58 sw_kong 阅读(1233) 评论(0) 推荐(0) 编辑
摘要: HBASE基础 1. HBase简介 HBase是一个高可靠、高性能、面向列的,主要用于海量结构化和半结构化数据存储的分布式key-value存储系统。 它基于Google Bigtable开源实现,但二者有明显的区别:Google Bigtable基于GFS存储,通过MAPREDUCE处理存储的数 阅读全文
posted @ 2020-03-06 17:45 sw_kong 阅读(493) 评论(0) 推荐(0) 编辑
摘要: 合理利用线程池能够带来三个好处 第一:降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。 第二:提高响应速度。当任务到达时,任务可以不需要的等到线程创建就能立即执行。第三:提高线程的可管理性。线程是稀缺资源,如果无限制的创建,不仅会消耗系统资源,还会降低系统的稳定性,使用线程池可以 阅读全文
posted @ 2020-03-06 16:05 sw_kong 阅读(3313) 评论(0) 推荐(1) 编辑
摘要: 昨天面试官面试的时候问了我一道关于链表的问题:情境如下 面试官:请说一下链表跟数组的区别? 我:数组静态分配内存,链表动态分配内存;数组在内存中连续,链表不连续;数组利用下标定位,时间复杂度为O(1),链表定位元素时间复杂度O(n);数组插入或删除元素的时间复杂度O(n),链表的时间复杂度O(1)。 阅读全文
posted @ 2020-03-06 14:32 sw_kong 阅读(763) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 14 下一页