bigdata 数仓 - 随笔分类(第2页) - guoyu1

数仓分层

摘要：1、什么是数据仓库数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。 2、数仓为什么要分阅读全文

posted @ 2020-03-24 15:20 guoyu1 阅读(578) 评论(0) 推荐(0) 编辑

hive中的UDF函数

摘要：1、UDF的定义 UDF（User-Defined Functions）即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求，这时就需要我们自定义函数了 UDF的分类 UDF：one to one，进来一个出去一个，row mapping。是row级别操作，如：upper、subst 阅读全文

posted @ 2020-03-16 18:03 guoyu1 阅读(2265) 评论(0) 推荐(0) 编辑

Hive常见语句区别

摘要：1、hive中的order by，sort by，distribut by，cluster by及其区别转载博客：https://www.cnblogs.com/dcx-1993/p/11041228.html hive 查询语法 1 2 3 4 5 6 7 select [all | disti 阅读全文

posted @ 2020-03-10 18:01 guoyu1 阅读(285) 评论(0) 推荐(0) 编辑

hive文件存储及压缩格式

摘要：目录一、常见文件存储格式和压缩格式二、parquet和orc列式存储格式一、常见文件存储格式和压缩格式着大数据时代的到来，越来越多的数据流向了Hadoop生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在Hadoop生态圈的快速发展过程中，阅读全文

posted @ 2020-03-06 11:24 guoyu1 阅读(837) 评论(0) 推荐(0) 编辑

Hive SQL调优

摘要：1. join时将大表放后，小表放在前正确的说法：把重复关联键少的表放在join前面做关联可以提高join的效率，实际操作中也没法看什么重复连接键多少，因此一般都是小表在前了，表越少，重复的连接键总量就越少。因此通常需要将小表放前面，或者标记哪张表是大表：/*streamtable(table_ 阅读全文

posted @ 2020-02-22 21:13 guoyu1 阅读(357) 评论(0) 推荐(0) 编辑

常见hql底层执行原理

摘要：1、join SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON pv.userid = u.userid; 实现过程： Map： 1、以 JOIN ON 条件中的列作为 Key，如果有多个列，则 Key 是这些列的组合。（key=on条阅读全文

posted @ 2020-02-13 17:34 guoyu1 阅读(616) 评论(0) 推荐(0) 编辑

Hive窗口函数实战使用

摘要：1、row_number：分组排序+序号标记假如我们有这样一组数据，我们需要求出不同性别的年龄top2的人的信息。这个时候怎么做？可能我们会首先想到分组，但是分组只能值top1，怎么样能求出top2，top3呢？这时候我们想如果分组后能够按照年龄排序然后标出来序号就好了！ id age name 阅读全文

posted @ 2020-02-13 16:15 guoyu1 阅读(313) 评论(0) 推荐(0) 编辑

Hive 的 Join

摘要：1、hive中的join类型：（1）join ：只返回关联上的结果。（2）left join ：返回的记录条数和左表相同，关联不上的字段为null。（3）right join：返回的记录条数和右表相同，关联不上的字段为null。（4）full join：返回两个表的记录去重之和，关联不上的字阅读全文

posted @ 2019-12-31 10:27 guoyu1 阅读(1187) 评论(0) 推荐(0) 编辑

Hive建表

摘要：一、Hive建表语句（1）创建内部表（2）创建外部表 drop table yum_area_dw.dw_community_base_info_aoi_clean; CREATE EXTERNAL TABLE `yum_area_dw.dw_community_base_info_aoi_cl 阅读全文

posted @ 2019-12-24 14:59 guoyu1 阅读(1643) 评论(0) 推荐(0) 编辑

Hive节点及原理

摘要：目录：一、hive简介二、Hive语句的执行流程三、hive和传统数据库的区别一、Hive简介 1、什么是Hive：hive是一种基于hadoop的数据仓库，能够将结构化的数据映射成一张表，并提供HQL进行查询。其数据是存储在hdfs上，本质是将sql命令转化成MapReduce来执行。 2 阅读全文

posted @ 2019-12-10 17:22 guoyu1 阅读(1410) 评论(0) 推荐(0) 编辑

Hive数据倾斜

摘要：一、数据倾斜表现： https://blog.51cto.com/u_14932245/2759844 在MapReduce编程模型中十分常见，大量相同的key被分配到一个reduce里，造成一个reduce任务累死，其他reduce任务闲死。查看任务进度，发现长时间停留在99%或100%，查看任务阅读全文

posted @ 2019-12-07 16:56 guoyu1 阅读(626) 评论(0) 推荐(0) 编辑

打怪up

随笔分类 - bigdata 数仓

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论