随笔分类 -  Hive

摘要:复习员工案例 sql:Hive实现按照指定格式输出每七天的消费平均数输出格式:2018-06-01~2018-06-07 12.29...2018-08-10~2018-08-16 80.67 数据如下:2018/6/1,102018/6/2,112018/6/3,112018/6/4,122018 阅读全文
posted @ 2022-06-23 21:06 呆滞的猪蹄 阅读(39) 评论(0) 推荐(0) 编辑
摘要:员工信息表emp: 字段:员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号英文名:EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNO create table emp( EMPNO int ,ENAME string ,JOB strin 阅读全文
posted @ 2022-06-23 21:04 呆滞的猪蹄 阅读(56) 评论(0) 推荐(0) 编辑
摘要:1.1 hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,select字段名也是 阅读全文
posted @ 2022-06-23 21:00 呆滞的猪蹄 阅读(185) 评论(0) 推荐(0) 编辑
摘要:连续登陆问题 在电商、物流和银行可能经常会遇到这样的需求:统计用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数等 数据: 注意:每个用户每天可能会有多条记录 id datestr amount 1,2019-02-08,6214.23 1,2019-02-08,6247.32 1, 阅读全文
posted @ 2022-06-23 20:44 呆滞的猪蹄 阅读(99) 评论(0) 推荐(0) 编辑
摘要:1.1 Hive窗口函数 普通的聚合函数每组(Group by)只返回一个值,而开窗函数则可为窗口中的每行都返回一个值。 简单理解,就是对查询的结果多出一列,这一列可以是聚合值,也可以是排序值。 开窗函数一般就是说的是over()函数,其窗口是由一个 OVER 子句 定义的多行记录 开窗函数一般分为 阅读全文
posted @ 2022-06-08 21:45 呆滞的猪蹄 阅读(173) 评论(0) 推荐(0) 编辑
摘要:1、count(*)、count(1) 、count('字段名') 区别 从执行结果来看 count(*)包括了所有的列,相当于行数,在统计结果的时候,不会忽略列值为NULL 最慢的 count(1)包括了忽略所有列,用1代表代码行,在统计结果的时候,不会忽略列值为NULL 最快的 count(列名 阅读全文
posted @ 2022-06-08 21:39 呆滞的猪蹄 阅读(103) 评论(0) 推荐(0) 编辑
摘要:1、Hive分区 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容易很多了。 假如现在我们 阅读全文
posted @ 2022-06-08 20:34 呆滞的猪蹄 阅读(381) 评论(0) 推荐(0) 编辑
摘要:2.1.1 创建数据库 1)创建一个数据库,数据库在HDFS上的默认存储路径是/hive/warehouse/*.db。 create database testdb; 2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法) create database if not 阅读全文
posted @ 2022-06-08 20:16 呆滞的猪蹄 阅读(236) 评论(0) 推荐(0) 编辑
摘要:1、Hive基本概念 1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 为什么使用Hive? 如果直接使 阅读全文
posted @ 2022-06-08 20:08 呆滞的猪蹄 阅读(288) 评论(0) 推荐(0) 编辑
摘要:Hive(数据仓库建模工具之一) 1.1 数据仓库概述 数据仓库之父比尔·恩门,1991年提出 数据仓库就是为了解决数据库不能解决的问题而提出的。那么数据库无法解决什么样的问题呢?这个我们得先说说什么是OLAP和OLTP。(重点) 1.2 OLTP和OLAP(重点) 1.2.1 OLTP OLTP( 阅读全文
posted @ 2022-06-08 19:32 呆滞的猪蹄 阅读(239) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示