[402]Hive - 随笔分类 - DarrenChan陈驰

[转]为什么group by后面不能使用别名（除MySQL）

摘要：同事工作中遇到一个问题： select count(billingdate),to_char(billingdate,'YYYYmm') month from tu_trade where to_char(billingdate,'YYYY') ='2017'and reportstat = 30 阅读全文

posted @ 2019-10-08 12:14 DarrenChan陈驰阅读(3086) 评论(0) 推荐(2)

实现用SQL查询连续发文天数/连续登录天数

摘要：当月最长连续发文天数: //临时：id_time_table: select distinct app_id, from_unixtime(create_date_time, 'yyyy-MM-dd') fawen_date from bjh_ods_task_manage_df where event_day='$baseDay' and object_type=2 and from_unixt 阅读全文

posted @ 2019-09-04 23:10 DarrenChan陈驰阅读(4088) 评论(0) 推荐(0)

Hive分组取Top K数据

摘要：阿里交叉面试问到了这个题，当时感觉没有答好，主要是对Hive这块还是不熟悉，其实可以采用row_number()函数。 1、ROW_NUMBER，RANK()，DENSE_RANK() 语法格式：row_number() OVER (partition by COL1 order by COL2 d 阅读全文

posted @ 2018-08-22 17:56 DarrenChan陈驰阅读(1779) 评论(1) 推荐(1)

Hive数据倾斜解决办法总结

摘要：数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候，如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候，某些节点的计算能力比较强或者需要计算的数据比较少，早早执行完了，某些节点计算阅读全文

posted @ 2018-08-06 17:20 DarrenChan陈驰阅读(1749) 评论(0) 推荐(0)

Hive面试题——累计求和

摘要：需求：有如下访客访问次数统计表 t_access_times 访客月份访问次数 A 2015-01 5 A 2015-01 15 B 2015-01 5 A 2015-01 8 B 2015-01 25 A 2015-01 5 A 2015-02 4 A 2015-02 6 B 2015-02 阅读全文

posted @ 2017-04-29 20:33 DarrenChan陈驰阅读(2192) 评论(1) 推荐(0)

Hive学习笔记——保存select结果，Join，多重插入

摘要：1. 保存select查询结果的几种方式： 1、将查询结果保存到一张新的hive表中 2、将查询结果保存到一张已经存在的hive表中(用load的时候，可以是into或者overwrite into，这里是into或者overwrite) 3、将查询结果保存到指定的文件目录（可以是本地，也可以是hd 阅读全文

posted @ 2017-04-29 20:29 DarrenChan陈驰阅读(4002) 评论(0) 推荐(0)

Hive学习笔记——Hive中的分桶

摘要：对于每一个表（table）或者分区， Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。把表（或者分区）组织成桶（Bucket）有两个理由：（1）获得更高的查询处理阅读全文

posted @ 2017-04-29 12:52 DarrenChan陈驰阅读(2901) 评论(0) 推荐(0)

Hive学习笔记——HQL用法及UDF,Transform

摘要：Hive中没有定义专门的数据格式，数据格式可以由用户指定，用户定义数据格式需要指定三个属性：列分隔符（通常为空格、”\t”、”\x001″）、行分隔符（”\n”）以及读取文件数据的方法（Hive 中默认有三个文件格式 TextFile，SequenceFile 以及 RCFile）。由于在加载数据阅读全文

posted @ 2017-03-15 00:31 DarrenChan陈驰阅读(1724) 评论(0) 推荐(0)

Hive学习笔记——基本配置及测试

摘要：1.什么是Hive Hive 是建立在 Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive 定义了简单的类SQL查询语言，称为QL，它允许熟悉 SQL 的用户查询数据。同时，这个阅读全文

posted @ 2017-03-09 01:18 DarrenChan陈驰阅读(777) 评论(0) 推荐(0)

DarrenChan陈驰

致力于成为精通大数据、后台开发和算法的全栈架构师

随笔分类 - [402]Hive

公告