sw_kong

2019年8月21日

摘要： HBase中的rowkey是按字典顺序排序的，通过rowkey查询可以对千万级的数据实现毫秒级响应。然而，如果rowkey设计不合理的话经常会出现一个很普遍的问题热点。当大量client的请求（读或者写）只指向集群的一个节点，或者很少量的几个节点时，也就代表产生了热点问题。避免产生热点的方式也就阅读全文

posted @ 2019-08-21 19:40 sw_kong 阅读(533) 评论(0) 推荐(0) 编辑

2019年8月18日

hbase集群region数量和大小的影响

摘要： 1、Region数量的影响通常较少的region数量可使群集运行的更加平稳，官方指出每个RegionServer大约100个regions的时候效果最好，理由如下： 1）Hbase的一个特性MSLAB，它有助于防止堆内存的碎片化，减轻垃圾回收Full GC的问题，默认是开启的。但是每个MemSto 阅读全文

posted @ 2019-08-18 21:31 sw_kong 阅读(1989) 评论(0) 推荐(0) 编辑

为什么不建议在hbase中使用过多的列簇

摘要：我们知道，hbase表可以设置一个至多个列簇（column families），但是为什么说越少的列簇越好呢？官网原文： HBase currently does not do well with anything above two or three column families so kee 阅读全文

posted @ 2019-08-18 21:15 sw_kong 阅读(1629) 评论(0) 推荐(0) 编辑

hive explode 行拆列

摘要：创建一张表test_explode，表结构如下表数据如下： 1.使用explode函数但是只使用explode函数很难满足实际需求，原因如下： 1.1 No other expressions are allowed in SELECT 1.2 UDTF's can't be nested 1. 阅读全文

posted @ 2019-08-18 09:45 sw_kong 阅读(723) 评论(0) 推荐(0) 编辑

2019年8月13日

通过livy向CDH集群的spark提交任务

摘要：场景应用后台远程调用spark任务简单介绍下livy： Submit Jobs from Anywhere Livy enables programmatic, fault-tolerant, multi-tenant submission of Spark jobs from web/mobi 阅读全文

posted @ 2019-08-13 15:05 sw_kong 阅读(3660) 评论(4) 推荐(0) 编辑

2019年8月9日

case when多条件

摘要： SELECT label ,label3 ,lon_cen ,lat_cen ,lon3 ,lat3 ,antenna_height ,horizontal_angle ,CASE WHEN round(atan((antenna_height / (2 * distance(lon3, lat3, lon_cen, lat_cen)))) * 180 / 3.14) 9... 阅读全文

posted @ 2019-08-09 16:22 sw_kong 阅读(622) 评论(0) 推荐(0) 编辑

2019年8月7日

spark sql/hive小文件问题

摘要：针对hive on mapreduce 1：我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并：参数详细内容可参考官网：https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties hive.mer 阅读全文

posted @ 2019-08-07 10:25 sw_kong 阅读(2979) 评论(5) 推荐(0) 编辑

2019年7月29日

SQL join

摘要： SQL join 用于把来自两个或多个表的行结合起来。下图展示了 LEFT JOIN、RIGHT JOIN、INNER JOIN、OUTER JOIN 相关的 7 种用法。阅读全文

posted @ 2019-07-29 08:51 sw_kong 阅读(118) 评论(0) 推荐(0) 编辑

spark任务调度模式，动态资源分配

摘要：官网链接： http://spark.apache.org/docs/latest/job-scheduling.html 主要介绍： 1 application级调度方式 2 单个application内job的调度方式阅读全文

posted @ 2019-07-29 08:48 sw_kong 阅读(316) 评论(0) 推荐(0) 编辑

2019年7月27日

[转]SparkSQL的自适应执行---Adaptive Execution

摘要： 1 背景本文介绍的 Adaptive Execution 将可以根据执行过程中的中间数据优化后续执行，从而提高整体执行效率。核心在于两点执行计划可动态调整调整的依据是中间结果的精确统计信息 2 动态设置 Shuffle Partition 2.1 Spark Shuffle 原理如上图所示，阅读全文

posted @ 2019-07-27 11:15 sw_kong 阅读(1656) 评论(1) 推荐(0) 编辑

公告