2020 年 8月 23 日随笔档案 - 王昱棋

hive--distribute by and sort by

摘要：数据 B 10 store_B_4 A 12 store_A_1 A 14 store_A_2 B 15 store_B_1 B 19 store_B_2 B 30 store_B_3 建表及加载数据 create table if not exists store( sid string, amo 阅读全文

posted @ 2020-08-23 23:29 王昱棋阅读(702) 评论(0) 推荐(0) 编辑

hdfs数据写入流程和数据读取流程

摘要： hdfs数据写入：第一步：客户端通过dfs模块向namenade请求：输出目录是否存在、父目录是否存在第二步：namenode通过检查hdfs目录，返回客户端结果第三步：客户端向namenode请求：数据节点（3个）dn1，dn2，dn3 第四步：namenode将数据节点的具体位置返回给客户阅读全文

posted @ 2020-08-23 22:51 王昱棋阅读(1407) 评论(0) 推荐(0) 编辑

hive 编写连续N天登录的总人数

摘要： 1、数据文件： 1 2019-07-11 1 1 2019-07-12 1 1 2019-07-13 1 1 2019-07-14 1 1 2019-07-15 1 1 2019-07-16 1 1 2019-07-17 1 1 2019-07-18 1 2 2019-07-11 1 2 2019- 阅读全文

posted @ 2020-08-23 21:49 王昱棋阅读(472) 评论(0) 推荐(0) 编辑

hive的常用函数

摘要：地址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.rand() 语法: rand(),rand(int seed) 返回值: double 说明:返回一个0到1范围内的随机数。如果指定种子seed，则会等阅读全文

posted @ 2020-08-23 21:34 王昱棋阅读(155) 评论(0) 推荐(0) 编辑

mapreduce的过程分析

摘要： map的shuffle过程分为6个步骤 split --> map --> partition --> kvbuffer(--> sort --> spill) -->merge (--> segment列表 )-->file（文件）第一步split（切分数据）通过API接口，接入准备的数据，按阅读全文

posted @ 2020-08-23 21:01 王昱棋阅读(243) 评论(0) 推荐(0) 编辑

hive中map与reduce的个数问题

摘要：目的：为了整理自己的思路，基本上都是从大佬那里截取的一：hive的map数量一般情况下，是按照hdfs的数据块大小来决定，默认是128M，也就是被读取的文件整除128M之后的个数，例：128M就是一个map，129M就是两个map 按照1.中的思路，可能会出现一种状况，大量的小文件，会导致大量的阅读全文

posted @ 2020-08-23 18:17 王昱棋阅读(489) 评论(0) 推荐(0) 编辑

王昱棋