摘要:
背景:熟悉MR执行的步骤后,可以往3个点继续分析: 1. code:MR的执行code,根据执行的步骤产出流程图。 2.引擎:了解TEZ/SPARK sql执行的步骤,产出如MR一样的流程图,清楚MR,TEZ,SPARK SQL的区分 3.sql编译过程:熟悉hsql提交到执行计划,到MR执行的过程 阅读全文
摘要:
参考了很多资料写的结果,更多是学习(照搬前人成果)和了解map-shuffle-reduce过程种,到底做了什么事情。 1.map shuffle reduce a. shuffle过程 b. map到shuffle的过程 c. shuffle到reduce的过程 d. 文件提交到map的过程 e. 阅读全文
摘要:
主要说说这3者的区分和场景: 1.order by:这是日常使用最多的,因为是最终的排序,所以是全局的,所以最后只会有1个reduce(set mapred.reduce.tasks=n无效)完成。假如sql的执行结果的数据量很大的话,这里就会比较坑。 2.sort by:sortby不是全局排序, 阅读全文
摘要:
参考文档:https://www.cnblogs.com/1130136248wlxk/articles/5352154.html 1. 决定map的数据的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block 阅读全文
摘要:
背景: 使用hive-sql到一定的层次之后,对于这些函数需要透彻的理解,尤其是它适合的使场景。 1. https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics hive关于窗口函数和分 阅读全文
摘要:
一. 背景: 1. 部门经过一轮的重大变化,对目前的数据提出了新的要求,其中之一就是要做业务数仓。 2. 经过和leader的沟通,从业务层面,时间层面,人力层面出发,最终还是使用维度建模的方式来实现,实现的内容更多的是个数据集市或者业务数仓。 二. 经过: 1. 整个建设流程分为如下几个:a. 业 阅读全文
摘要:
背景: 刚刚换了家公司,目前个人时间比之前充裕,开始这折腾了下robotium。之前也成功入门了python和selenium,故对自动化有大致的框架了解。(但是没有java基础,哎!~不管先上)环境搭建: 1. 在搭建过程中,发现最好使用较新的eclipse/sdk/adt,不然会出现一些意想... 阅读全文
摘要:
1.目标:测试Mosquitto使用MQTT协议发消息的相关性能指标,包含发送速度,并发负载能力,资源占用,消息到达率。2.MQTT协议简介: 1).建立长连接。客户端发起请求和服务端建立长连接,建立成功后,服务端会返回ACK(CONNACK) 2).客户端订阅:客户端发起订阅,订阅成功后,服务... 阅读全文
摘要:
前段时间在做些关于App的性能测试,先了些关于内存方面的基础知识。1. 内存名字: VSS = Virtual set size = 虚拟耗用内存(包含共享库占用的内存) RSS- Resident Set Size 实际使用物理内存(包含共享库占用的内存) PSS- Proportion... 阅读全文