摘要:
HBase中的rowkey是按字典顺序排序的,通过rowkey查询可以对千万级的数据实现毫秒级响应。然而,如果rowkey设计不合理的话经常会出现一个很普遍的问题 热点。当大量client的请求(读或者写)只指向集群的一个节点,或者很少量的几个节点时,也就代表产生了热点问题。 避免产生热点的方式也就 阅读全文
摘要:
1、Region数量的影响 通常较少的region数量可使群集运行的更加平稳,官方指出每个RegionServer大约100个regions的时候效果最好,理由如下: 1)Hbase的一个特性MSLAB,它有助于防止堆内存的碎片化,减轻垃圾回收Full GC的问题,默认是开启的。但是每个MemSto 阅读全文
摘要:
我们知道,hbase表可以设置一个至多个列簇(column families),但是为什么说越少的列簇越好呢? 官网原文: HBase currently does not do well with anything above two or three column families so kee 阅读全文
摘要:
创建一张表test_explode,表结构如下 表数据如下: 1.使用explode函数 但是只使用explode函数很难满足实际需求,原因如下: 1.1 No other expressions are allowed in SELECT 1.2 UDTF's can't be nested 1. 阅读全文
摘要:
场景 应用后台远程调用spark任务 简单介绍下livy: Submit Jobs from Anywhere Livy enables programmatic, fault-tolerant, multi-tenant submission of Spark jobs from web/mobi 阅读全文
摘要:
SELECT label ,label3 ,lon_cen ,lat_cen ,lon3 ,lat3 ,antenna_height ,horizontal_angle ,CASE WHEN round(atan((antenna_height / (2 * distance(lon3, lat3, lon_cen, lat_cen)))) * 180 / 3.14) 9... 阅读全文
摘要:
针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties hive.mer 阅读全文
摘要:
SQL join 用于把来自两个或多个表的行结合起来。 下图展示了 LEFT JOIN、RIGHT JOIN、INNER JOIN、OUTER JOIN 相关的 7 种用法。 阅读全文
摘要:
官网链接: http://spark.apache.org/docs/latest/job-scheduling.html 主要介绍: 1 application级调度方式 2 单个application内job的调度方式 阅读全文
摘要:
1 背景 本文介绍的 Adaptive Execution 将可以根据执行过程中的中间数据优化后续执行,从而提高整体执行效率。核心在于两点 执行计划可动态调整 调整的依据是中间结果的精确统计信息 2 动态设置 Shuffle Partition 2.1 Spark Shuffle 原理 如上图所示, 阅读全文