Jack_chengdu

HSQL转化为MR过程

摘要：背景：熟悉MR执行的步骤后，可以往3个点继续分析： 1. code：MR的执行code，根据执行的步骤产出流程图。 2.引擎：了解TEZ/SPARK sql执行的步骤，产出如MR一样的流程图，清楚MR，TEZ，SPARK SQL的区分 3.sql编译过程：熟悉hsql提交到执行计划，到MR执行的过程阅读全文

posted @ 2019-01-15 16:29 Jack_chengdu 阅读(555) 评论(0) 推荐(0)

简单写下提交sql-map-shuffle-reduce的过程

摘要：参考了很多资料写的结果，更多是学习(照搬前人成果)和了解map-shuffle-reduce过程种，到底做了什么事情。 1.map shuffle reduce a. shuffle过程 b. map到shuffle的过程 c. shuffle到reduce的过程 d. 文件提交到map的过程 e. 阅读全文

posted @ 2019-01-09 09:52 Jack_chengdu 阅读(146) 评论(0) 推荐(0)

order by/sort by/distribute by /cluster by 的区分

摘要：主要说说这3者的区分和场景： 1.order by:这是日常使用最多的，因为是最终的排序，所以是全局的，所以最后只会有1个reduce(set mapred.reduce.tasks=n无效)完成。假如sql的执行结果的数据量很大的话，这里就会比较坑。 2.sort by:sortby不是全局排序，阅读全文

posted @ 2018-12-25 11:28 Jack_chengdu 阅读(812) 评论(0) 推荐(0)

hive中如何控制mapper的数量

摘要：参考文档：https://www.cnblogs.com/1130136248wlxk/articles/5352154.html 1. 决定map的数据的决定因素有: input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block 阅读全文

posted @ 2018-12-24 20:48 Jack_chengdu 阅读(5133) 评论(1) 推荐(0)

hive 窗口和分析函数功能

摘要：背景：使用hive-sql到一定的层次之后，对于这些函数需要透彻的理解，尤其是它适合的使场景。 1. https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics hive关于窗口函数和分阅读全文

posted @ 2018-12-24 11:16 Jack_chengdu 阅读(194) 评论(0) 推荐(0)

保险数仓建设-kimball

摘要：一. 背景： 1. 部门经过一轮的重大变化，对目前的数据提出了新的要求，其中之一就是要做业务数仓。 2. 经过和leader的沟通，从业务层面，时间层面，人力层面出发，最终还是使用维度建模的方式来实现，实现的内容更多的是个数据集市或者业务数仓。二. 经过： 1. 整个建设流程分为如下几个：a. 业阅读全文

posted @ 2018-11-21 11:57 Jack_chengdu 阅读(519) 评论(0) 推荐(0)

robotium入门总结（只有apk，没有源码）

摘要：背景：刚刚换了家公司，目前个人时间比之前充裕，开始这折腾了下robotium。之前也成功入门了python和selenium，故对自动化有大致的框架了解。（但是没有java基础，哎！~不管先上）环境搭建： 1. 在搭建过程中，发现最好使用较新的eclipse/sdk/adt，不然会出现一些意想... 阅读全文

posted @ 2015-11-20 14:45 Jack_chengdu 阅读(188) 评论(0) 推荐(0)

MQTT&Mosquitto 推送服务

摘要： 1.目标：测试Mosquitto使用MQTT协议发消息的相关性能指标，包含发送速度，并发负载能力，资源占用，消息到达率。2.MQTT协议简介： 1).建立长连接。客户端发起请求和服务端建立长连接，建立成功后，服务端会返回ACK(CONNACK) 2).客户端订阅：客户端发起订阅，订阅成功后，服务... 阅读全文

posted @ 2015-05-26 11:25 Jack_chengdu 阅读(1743) 评论(0) 推荐(0)

Android内存_从测试角度理解

摘要：前段时间在做些关于App的性能测试，先了些关于内存方面的基础知识。1. 内存名字： VSS = Virtual set size = 虚拟耗用内存（包含共享库占用的内存） RSS- Resident Set Size 实际使用物理内存（包含共享库占用的内存） PSS- Proportion... 阅读全文

posted @ 2015-02-26 18:02 Jack_chengdu 阅读(160) 评论(0) 推荐(0)

导航

公告