王昱棋

导航

2020年8月23日 #

hive--distribute by and sort by

摘要: 数据 B 10 store_B_4 A 12 store_A_1 A 14 store_A_2 B 15 store_B_1 B 19 store_B_2 B 30 store_B_3 建表及加载数据 create table if not exists store( sid string, amo 阅读全文

posted @ 2020-08-23 23:29 王昱棋 阅读(702) 评论(0) 推荐(0) 编辑

hdfs数据写入流程和数据读取流程

摘要: hdfs数据写入: 第一步:客户端通过dfs模块向namenade请求:输出目录是否存在、父目录是否存在 第二步:namenode通过检查hdfs目录,返回客户端结果 第三步:客户端向namenode请求:数据节点(3个)dn1,dn2,dn3 第四步:namenode将数据节点的具体位置返回给客户 阅读全文

posted @ 2020-08-23 22:51 王昱棋 阅读(1407) 评论(0) 推荐(0) 编辑

hive 编写连续N天登录的总人数

摘要: 1、数据文件: 1 2019-07-11 1 1 2019-07-12 1 1 2019-07-13 1 1 2019-07-14 1 1 2019-07-15 1 1 2019-07-16 1 1 2019-07-17 1 1 2019-07-18 1 2 2019-07-11 1 2 2019- 阅读全文

posted @ 2020-08-23 21:49 王昱棋 阅读(472) 评论(0) 推荐(0) 编辑

hive的常用函数

摘要: 地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.rand() 语法: rand(),rand(int seed) 返回值: double 说明:返回一个0到1范围内的随机数。如果指定种子seed,则会等 阅读全文

posted @ 2020-08-23 21:34 王昱棋 阅读(155) 评论(0) 推荐(0) 编辑

mapreduce的过程分析

摘要: map的shuffle过程分为6个步骤 split --> map --> partition --> kvbuffer(--> sort --> spill) -->merge (--> segment列表 )-->file(文件) 第一步split(切分数据) 通过API接口,接入准备的数据,按 阅读全文

posted @ 2020-08-23 21:01 王昱棋 阅读(243) 评论(0) 推荐(0) 编辑

hive中map与reduce的个数问题

摘要: 目的:为了整理自己的思路,基本上都是从大佬那里截取的 一:hive的map数量 一般情况下,是按照hdfs的数据块大小来决定,默认是128M,也就是被读取的文件整除128M之后的个数,例:128M就是一个map,129M就是两个map 按照1.中的思路,可能会出现一种状况,大量的小文件,会导致大量的 阅读全文

posted @ 2020-08-23 18:17 王昱棋 阅读(489) 评论(0) 推荐(0) 编辑