hive - 随笔分类 - 彬在俊

转载：hive的一些udaf

摘要：转自：https://blog.csdn.net/weixin_37766087/article/details/100940409 说明这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions：的不严阅读全文

posted @ 2021-01-26 11:41 彬在俊阅读(334) 评论(0) 推荐(0) 编辑

hive使用UDF函数

摘要：UDF几个相关概念： UDF: one-to-one row mapping : upper substr【进来一行出去一行】 UDAF: Aggregation Many-to-one row mapping 比如sum/min【进来多行出去一行】 UDTF: Table-generating o 阅读全文

posted @ 2021-01-26 11:17 彬在俊阅读(383) 评论(0) 推荐(0) 编辑

转载：left semi join和left join区别

摘要：转载于：https://my.oschina.net/u/4631230/blog/4533371 (a表和b表通过user_id关联) 1.1 a表数据 select * from wedw_dw.t_user; 1.2 b表数据 select * from wedw_dw.t_order; 1. 阅读全文

posted @ 2021-01-24 17:10 彬在俊阅读(4398) 评论(0) 推荐(0) 编辑

hive的行列转换2

摘要：需求：孙悟空白羊座 A沙悟净射手座 A宋松松白羊座 B猪八戒白羊座 A小凤姐射手座 A 转换成以下格式：白羊座，A 孙悟空|猪八戒白羊座，B 宋松松射手座，A 沙悟净|小凤姐思路：表的行转列知识点：concat(string1,string2) string1和string2需要是阅读全文

posted @ 2020-09-05 10:15 彬在俊阅读(190) 评论(0) 推荐(0) 编辑

hive的行列转换

摘要：需求：《疑犯》悬疑,动作,科幻,爱情《lie to me》悬疑,警匪,动作,心理,剧情《战狼》战争,动作,灾难转成如下格式：《疑犯》悬疑《疑犯》动作《疑犯》科幻《疑犯》爱情《lie to me》悬疑《lie to me》警匪《lie to me》动作《lie to me》阅读全文

posted @ 2020-09-05 10:12 彬在俊阅读(296) 评论(0) 推荐(0) 编辑

hive的几种join

摘要：作为数据分析中经常进行的join 操作，传统DBMS 数据库已经将各种算法优化到了极致，而对于hadoop 使用的mapreduce 所进行的join 操作，去年开始也是有各种不同的算法论文出现，讨论各种算法的适用场景和取舍条件，本文讨论hive 中出现的几种join 优化，然后讨论其他算法实现，希阅读全文

posted @ 2020-09-02 09:12 彬在俊阅读(2142) 评论(0) 推荐(0) 编辑

hive order、sort、distribute、cluster by区别与联系

摘要：1、order by hive中的order by 会对查询结果集执行一个全局排序，这也就是说所有的数据都通过一个reduce进行处理的过程，对于大数据集，这个过程将消耗很大的时间来执行。 2、sort by hive的sort by 也就是执行一个局部排序过程。这可以保证每个reduce的输出数据阅读全文

posted @ 2020-08-31 17:29 彬在俊阅读(448) 评论(0) 推荐(0) 编辑

hive over窗口函数的使用

摘要：前言：我们在学习hive窗口函数的时候，一定要先了解窗口函数的结构。而不是直接百度sum() over()、row_number() over()、或者count() over()的用法，如果这样做，永远也掌握不到窗口函数的核心，当然我刚开始的时候也是这样做的。还好我比较顽强，在HIVE窗口函数问阅读全文

posted @ 2020-08-31 16:41 彬在俊阅读(12887) 评论(1) 推荐(7) 编辑

hive中row_number() rank() dense_rank()的用法

摘要：1.函数说明主要是配合over()窗口函数来使用的，通过over(partition by order by )来反映统计值的记录。 1. rank() over()是跳跃排序，有两个第二名时接下来就是第四名（同样是在各个分组内） 2. dense_rank() over()是连续排序，有两个第二阅读全文

posted @ 2020-08-31 11:40 彬在俊阅读(1319) 评论(0) 推荐(0) 编辑

hive中文乱码问题

摘要：Hive注释中文乱码创建表的时候，comment说明字段包含中文，表成功创建成功之后，中文说明显示乱码 create external table movie( userID int comment '用户ID', movieID int comment '电影ID', rating int co 阅读全文

posted @ 2020-08-29 13:36 彬在俊阅读(491) 评论(0) 推荐(0) 编辑

hive分桶表的学习

摘要：前言：每一个表或者分区，hive都可以进一步组织成桶，桶是更细粒度的数据划分，他本质不会改变表或分区的目录组织方式，他会改变数据在文件中的分布方式。分桶规则：对分桶字段值进行哈希，哈希值除以桶的个数求余，余数决定了该条记录在哪个桶中，也就是余数相同的在一个桶中。桶为表加上额外结构，链接相同列划阅读全文

posted @ 2020-08-29 13:15 彬在俊阅读(614) 评论(0) 推荐(0) 编辑

hive的调优经验

摘要：规范： 1.开发规范 SQL子查询嵌套不宜超过3层。少用或者不用Hint，hive2.0以后增强HiveSQL对于成本调优（CBO）的支持避免SQL 代码的复制、粘贴。如果有多处逻辑一致的代码，可以将执行结果存储到临时表中。尽可能使用SQL 自带的高级命令做操作。在多维统计分析中使用cube、阅读全文

posted @ 2020-08-29 12:44 彬在俊阅读(1421) 评论(0) 推荐(1) 编辑

Hive的学习

摘要：首先利用python造一些假数据，来进行hive的学习：代码如下： # coding: utf-8 import random import datetime import sys reload(sys) sys.setdefaultencoding('utf-8') # lastname 和 f 阅读全文

posted @ 2020-08-27 15:44 彬在俊阅读(234) 评论(0) 推荐(0) 编辑

hive grouping sets和GROUPING__ID的用法

摘要：GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。 grouping sets根据不同的维度组合进行聚合，等价于将不同维度的group by的结果进行 un 阅读全文

posted @ 2020-08-26 11:40 彬在俊阅读(3116) 评论(0) 推荐(0) 编辑

hive修复分区或修复表以及msck命令的使用

摘要：问题原因：之前hive里有数据，后面MySQL数据库坏了，导致hive元数据信息丢失，但是hdfs上hive表的数据并没有丢失，重新建表后查看hive分区没有，数据也没有。需要进行修复。解决方法：可以使用msck repair table xxxxx命令修复！ msck repari table 阅读全文

posted @ 2020-08-25 17:07 彬在俊阅读(7288) 评论(0) 推荐(1) 编辑

彬在俊

随笔分类 - hive

公告