摘要: 1.1 Hive窗口函数 普通的聚合函数每组(Group by)只返回一个值,而开窗函数则可为窗口中的每行都返回一个值。 简单理解,就是对查询的结果多出一列,这一列可以是聚合值,也可以是排序值。 开窗函数一般就是说的是over()函数,其窗口是由一个 OVER 子句 定义的多行记录 开窗函数一般分为 阅读全文
posted @ 2022-06-08 21:45 呆滞的猪蹄 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 1、count(*)、count(1) 、count('字段名') 区别 从执行结果来看 count(*)包括了所有的列,相当于行数,在统计结果的时候,不会忽略列值为NULL 最慢的 count(1)包括了忽略所有列,用1代表代码行,在统计结果的时候,不会忽略列值为NULL 最快的 count(列名 阅读全文
posted @ 2022-06-08 21:39 呆滞的猪蹄 阅读(80) 评论(0) 推荐(0) 编辑
摘要: 1、Hive分区 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容易很多了。 假如现在我们 阅读全文
posted @ 2022-06-08 20:34 呆滞的猪蹄 阅读(363) 评论(0) 推荐(0) 编辑
摘要: 2.1.1 创建数据库 1)创建一个数据库,数据库在HDFS上的默认存储路径是/hive/warehouse/*.db。 create database testdb; 2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法) create database if not 阅读全文
posted @ 2022-06-08 20:16 呆滞的猪蹄 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 1、Hive基本概念 1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 为什么使用Hive? 如果直接使 阅读全文
posted @ 2022-06-08 20:08 呆滞的猪蹄 阅读(269) 评论(0) 推荐(0) 编辑
摘要: Hive(数据仓库建模工具之一) 1.1 数据仓库概述 数据仓库之父比尔·恩门,1991年提出 数据仓库就是为了解决数据库不能解决的问题而提出的。那么数据库无法解决什么样的问题呢?这个我们得先说说什么是OLAP和OLTP。(重点) 1.2 OLTP和OLAP(重点) 1.2.1 OLTP OLTP( 阅读全文
posted @ 2022-06-08 19:32 呆滞的猪蹄 阅读(169) 评论(0) 推荐(0) 编辑