随笔分类 -  hive

摘要:转自:https://blog.csdn.net/weixin_37766087/article/details/100940409 说明 这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions:的不严 阅读全文
posted @ 2021-01-26 11:41 彬在俊 阅读(334) 评论(0) 推荐(0) 编辑
摘要:UDF几个相关概念: UDF: one-to-one row mapping : upper substr【进来一行出去一行】 UDAF: Aggregation Many-to-one row mapping 比如sum/min【进来多行出去一行】 UDTF: Table-generating o 阅读全文
posted @ 2021-01-26 11:17 彬在俊 阅读(383) 评论(0) 推荐(0) 编辑
摘要:转载于:https://my.oschina.net/u/4631230/blog/4533371 (a表和b表通过user_id关联) 1.1 a表数据 select * from wedw_dw.t_user; 1.2 b表数据 select * from wedw_dw.t_order; 1. 阅读全文
posted @ 2021-01-24 17:10 彬在俊 阅读(4398) 评论(0) 推荐(0) 编辑
摘要:需求: 孙悟空 白羊座 A沙悟净 射手座 A宋松松 白羊座 B猪八戒 白羊座 A小凤姐 射手座 A 转换成以下格式: 白羊座,A 孙悟空|猪八戒白羊座,B 宋松松射手座,A 沙悟净|小凤姐 思路:表的行转列 知识点:concat(string1,string2) string1和string2需要是 阅读全文
posted @ 2020-09-05 10:15 彬在俊 阅读(190) 评论(0) 推荐(0) 编辑
摘要:需求: 《疑犯》 悬疑,动作,科幻,爱情《lie to me》 悬疑,警匪,动作,心理,剧情《战狼》 战争,动作,灾难 转成如下格式: 《疑犯》 悬疑《疑犯》 动作《疑犯》 科幻《疑犯》 爱情《lie to me》 悬疑《lie to me》 警匪《lie to me》 动作《lie to me》 阅读全文
posted @ 2020-09-05 10:12 彬在俊 阅读(296) 评论(0) 推荐(0) 编辑
摘要:作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论各种算法的适用场景和取舍条件,本文讨论hive 中出现的几种join 优化,然后讨论其他算法实现,希 阅读全文
posted @ 2020-09-02 09:12 彬在俊 阅读(2142) 评论(0) 推荐(0) 编辑
摘要:1、order by hive中的order by 会对查询结果集执行一个全局排序,这也就是说所有的数据都通过一个reduce进行处理的过程,对于大数据集,这个过程将消耗很大的时间来执行。 2、sort by hive的sort by 也就是执行一个局部排序过程。这可以保证每个reduce的输出数据 阅读全文
posted @ 2020-08-31 17:29 彬在俊 阅读(448) 评论(0) 推荐(0) 编辑
摘要:前言:我们在学习hive窗口函数的时候,一定要先了解窗口函数的结构。而不是直接百度sum() over()、row_number() over()、或者count() over()的用法,如果这样做,永远也掌握不到窗口函数的核心,当然我刚开始的时候也是这样做的。 还好我比较顽强,在HIVE窗口函数问 阅读全文
posted @ 2020-08-31 16:41 彬在俊 阅读(12884) 评论(1) 推荐(7) 编辑
摘要:1.函数说明 主要是配合over()窗口函数来使用的,通过over(partition by order by )来反映统计值的记录。 1. rank() over()是跳跃排序,有两个第二名时接下来就是第四名(同样是在各个分组内) 2. dense_rank() over()是连续排序,有两个第二 阅读全文
posted @ 2020-08-31 11:40 彬在俊 阅读(1317) 评论(0) 推荐(0) 编辑
摘要:Hive注释中文乱码 创建表的时候,comment说明字段包含中文,表成功创建成功之后,中文说明显示乱码 create external table movie( userID int comment '用户ID', movieID int comment '电影ID', rating int co 阅读全文
posted @ 2020-08-29 13:36 彬在俊 阅读(491) 评论(0) 推荐(0) 编辑
摘要:前言: 每一个表或者分区,hive都可以进一步组织成桶,桶是更细粒度的数据划分,他本质不会改变表或分区的目录组织方式,他会改变数据在文件中的分布方式。 分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中。 桶为表加上额外结构,链接相同列划 阅读全文
posted @ 2020-08-29 13:15 彬在俊 阅读(613) 评论(0) 推荐(0) 编辑
摘要:规范: 1.开发规范 SQL子查询嵌套不宜超过3层。 少用或者不用Hint,hive2.0以后增强HiveSQL对于成本调优(CBO)的支持 避免SQL 代码的复制、粘贴。如果有多处逻辑一致的代码,可以将执行结果存储到临时表中。 尽可能使用SQL 自带的高级命令做操作。在多维统计分析中使用cube、 阅读全文
posted @ 2020-08-29 12:44 彬在俊 阅读(1421) 评论(0) 推荐(1) 编辑
摘要:首先利用python造一些假数据,来进行hive的学习: 代码如下: # coding: utf-8 import random import datetime import sys reload(sys) sys.setdefaultencoding('utf-8') # lastname 和 f 阅读全文
posted @ 2020-08-27 15:44 彬在俊 阅读(234) 评论(0) 推荐(0) 编辑
摘要:GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。 grouping sets根据不同的维度组合进行聚合,等价于将不同维度的group by的结果进行 un 阅读全文
posted @ 2020-08-26 11:40 彬在俊 阅读(3116) 评论(0) 推荐(0) 编辑
摘要:问题原因:之前hive里有数据,后面MySQL数据库坏了,导致hive元数据信息丢失,但是hdfs上hive表的数据并没有丢失,重新建表后查看hive分区没有,数据也没有。需要进行修复。 解决方法:可以使用msck repair table xxxxx命令修复! msck repari table 阅读全文
posted @ 2020-08-25 17:07 彬在俊 阅读(7287) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示