随笔分类 -  bigdata 数仓

摘要:1、什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 2、数仓为什么要分 阅读全文
posted @ 2020-03-24 15:20 guoyu1 阅读(578) 评论(0) 推荐(0) 编辑
摘要:1、UDF的定义 UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了 UDF的分类 UDF:one to one,进来一个出去一个,row mapping。是row级别操作,如:upper、subst 阅读全文
posted @ 2020-03-16 18:03 guoyu1 阅读(2265) 评论(0) 推荐(0) 编辑
摘要:1、hive中的order by,sort by,distribut by,cluster by及其区别 转载博客:https://www.cnblogs.com/dcx-1993/p/11041228.html hive 查询语法 1 2 3 4 5 6 7 select [all | disti 阅读全文
posted @ 2020-03-10 18:01 guoyu1 阅读(285) 评论(0) 推荐(0) 编辑
摘要:目录 一、常见文件存储格式和压缩格式 二、parquet和orc列式存储格式 一、常见文件存储格式和压缩格式 着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中, 阅读全文
posted @ 2020-03-06 11:24 guoyu1 阅读(837) 评论(0) 推荐(0) 编辑
摘要:1. join时将大表放后,小表放在前 正确的说法:把重复关联键少的表放在join前面做关联可以提高join的效率,实际操作中也没法看什么重复连接键多少,因此一般都是小表在前了,表越少,重复的连接键总量就越少。 因此通常需要将小表放前面,或者标记哪张表是大表:/*streamtable(table_ 阅读全文
posted @ 2020-02-22 21:13 guoyu1 阅读(357) 评论(0) 推荐(0) 编辑
摘要:1、join SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON pv.userid = u.userid; 实现过程: Map: 1、以 JOIN ON 条件中的列作为 Key,如果有多个列,则 Key 是这些列的组合。(key=on条 阅读全文
posted @ 2020-02-13 17:34 guoyu1 阅读(616) 评论(0) 推荐(0) 编辑
摘要:1、row_number: 分组排序+序号标记 假如我们有这样一组数据,我们需要求出不同性别的年龄top2的人的信息。这个时候怎么做?可能我们会首先想到分组,但是分组只能值top1,怎么样能求出top2,top3呢?这时候我们想如果分组后能够按照年龄排序然后标出来序号就好了! id age name 阅读全文
posted @ 2020-02-13 16:15 guoyu1 阅读(313) 评论(0) 推荐(0) 编辑
摘要:1、hive中的join类型: (1)join :只返回关联上的结果。 (2)left join :返回的记录条数和左表相同,关联不上的字段为null。 (3)right join:返回的记录条数和右表相同,关联不上的字段为null。 (4)full join:返回两个表的记录去重之和,关联不上的字 阅读全文
posted @ 2019-12-31 10:27 guoyu1 阅读(1187) 评论(0) 推荐(0) 编辑
摘要:一、Hive建表语句 (1)创建内部表 (2)创建外部表 drop table yum_area_dw.dw_community_base_info_aoi_clean; CREATE EXTERNAL TABLE `yum_area_dw.dw_community_base_info_aoi_cl 阅读全文
posted @ 2019-12-24 14:59 guoyu1 阅读(1643) 评论(0) 推荐(0) 编辑
摘要:目录: 一、hive简介 二、Hive语句的执行流程 三、hive和传统数据库的区别 一、Hive简介 1、什么是Hive:hive是一种基于hadoop的数据仓库,能够将结构化的数据映射成一张表,并提供HQL进行查询。其数据是存储在hdfs上,本质是将sql命令转化成MapReduce来执行。 2 阅读全文
posted @ 2019-12-10 17:22 guoyu1 阅读(1410) 评论(0) 推荐(0) 编辑
摘要:一、数据倾斜表现: https://blog.51cto.com/u_14932245/2759844 在MapReduce编程模型中十分常见,大量相同的key被分配到一个reduce里,造成一个reduce任务累死,其他reduce任务闲死。查看任务进度,发现长时间停留在99%或100%,查看任务 阅读全文
posted @ 2019-12-07 16:56 guoyu1 阅读(626) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示