王昱棋

导航

2020年8月24日 #

hive 列转行 行转列

摘要: 第一:列转行 (对某列拆分,一列拆多行) lateral view explode(split(column, ',')) num 数据 2122 9,12 2123 12,15 2124 12,15 2125 1,12,15 建表 create table if not exists t_row_ 阅读全文

posted @ 2020-08-24 01:47 王昱棋 阅读(255) 评论(0) 推荐(0) 编辑

select … from … where … group by … having … order by … limit的执行顺序

摘要: 在大佬那里找到的:https://www.cnblogs.com/gxgd/p/9431783.html select … from … where … group by … having … order by … limit的执行顺序 其实总结hive的执行顺序也是总结mapreduce的执行顺序 阅读全文

posted @ 2020-08-24 00:58 王昱棋 阅读(517) 评论(0) 推荐(0) 编辑

hive的⽂件格式存储对比

摘要: 第一种:textfile 这种格式下,hive表可以直接load data 第二种:parquet 这种格式下,可以很好的支持impala查询 在sql操作中的时间也比较短 第三种 orc hive和spark都支持这种格式(按行分块,按列存储) 一般情况下:orc格式用的比较多, case1:有同 阅读全文

posted @ 2020-08-24 00:29 王昱棋 阅读(124) 评论(0) 推荐(0) 编辑

hive数据倾斜的情况处理

摘要: hive的数据倾斜的原因分析:少量key值对应了大量的数据,所以导致在reduce阶段,少数的几个reduce运行特别慢(数据量太大)xuexi: (http://itindex.net/detail/57899-spark-%E6%95%B0%E6%8D%AE-%E6%96%B9%E6%B3%95 阅读全文

posted @ 2020-08-24 00:18 王昱棋 阅读(269) 评论(0) 推荐(0) 编辑

2020年8月23日 #

hive--distribute by and sort by

摘要: 数据 B 10 store_B_4 A 12 store_A_1 A 14 store_A_2 B 15 store_B_1 B 19 store_B_2 B 30 store_B_3 建表及加载数据 create table if not exists store( sid string, amo 阅读全文

posted @ 2020-08-23 23:29 王昱棋 阅读(702) 评论(0) 推荐(0) 编辑

hdfs数据写入流程和数据读取流程

摘要: hdfs数据写入: 第一步:客户端通过dfs模块向namenade请求:输出目录是否存在、父目录是否存在 第二步:namenode通过检查hdfs目录,返回客户端结果 第三步:客户端向namenode请求:数据节点(3个)dn1,dn2,dn3 第四步:namenode将数据节点的具体位置返回给客户 阅读全文

posted @ 2020-08-23 22:51 王昱棋 阅读(1407) 评论(0) 推荐(0) 编辑

hive 编写连续N天登录的总人数

摘要: 1、数据文件: 1 2019-07-11 1 1 2019-07-12 1 1 2019-07-13 1 1 2019-07-14 1 1 2019-07-15 1 1 2019-07-16 1 1 2019-07-17 1 1 2019-07-18 1 2 2019-07-11 1 2 2019- 阅读全文

posted @ 2020-08-23 21:49 王昱棋 阅读(472) 评论(0) 推荐(0) 编辑

hive的常用函数

摘要: 地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.rand() 语法: rand(),rand(int seed) 返回值: double 说明:返回一个0到1范围内的随机数。如果指定种子seed,则会等 阅读全文

posted @ 2020-08-23 21:34 王昱棋 阅读(155) 评论(0) 推荐(0) 编辑

mapreduce的过程分析

摘要: map的shuffle过程分为6个步骤 split --> map --> partition --> kvbuffer(--> sort --> spill) -->merge (--> segment列表 )-->file(文件) 第一步split(切分数据) 通过API接口,接入准备的数据,按 阅读全文

posted @ 2020-08-23 21:01 王昱棋 阅读(243) 评论(0) 推荐(0) 编辑

hive中map与reduce的个数问题

摘要: 目的:为了整理自己的思路,基本上都是从大佬那里截取的 一:hive的map数量 一般情况下,是按照hdfs的数据块大小来决定,默认是128M,也就是被读取的文件整除128M之后的个数,例:128M就是一个map,129M就是两个map 按照1.中的思路,可能会出现一种状况,大量的小文件,会导致大量的 阅读全文

posted @ 2020-08-23 18:17 王昱棋 阅读(489) 评论(0) 推荐(0) 编辑