摘要: 一、了解HBase 1.1 HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据 HBase是Hadoop的生态系统之一,是建立在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,通过利用Hadoop的文件系 阅读全文
posted @ 2022-06-23 22:17 呆滞的猪蹄 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 复习员工案例 sql:Hive实现按照指定格式输出每七天的消费平均数输出格式:2018-06-01~2018-06-07 12.29...2018-08-10~2018-08-16 80.67 数据如下:2018/6/1,102018/6/2,112018/6/3,112018/6/4,122018 阅读全文
posted @ 2022-06-23 21:06 呆滞的猪蹄 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 员工信息表emp: 字段:员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号英文名:EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNO create table emp( EMPNO int ,ENAME string ,JOB strin 阅读全文
posted @ 2022-06-23 21:04 呆滞的猪蹄 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 1.1 hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,select字段名也是 阅读全文
posted @ 2022-06-23 21:00 呆滞的猪蹄 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 连续登陆问题 在电商、物流和银行可能经常会遇到这样的需求:统计用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数等 数据: 注意:每个用户每天可能会有多条记录 id datestr amount 1,2019-02-08,6214.23 1,2019-02-08,6247.32 1, 阅读全文
posted @ 2022-06-23 20:44 呆滞的猪蹄 阅读(85) 评论(0) 推荐(0) 编辑
摘要: 一、MapReduce案例 1.1 好友推荐系统 固定类别推荐 莫扎特 >钢琴 >贝多芬 >命运交响曲 数据量 QQ好友推荐 > 每个QQ200个好友 5亿QQ号 解决思路: 需要按照行进行计算 将相同推荐设置成相同的key,便于reduce统一处理 数据: tom hello hadoop cat 阅读全文
posted @ 2022-06-23 20:35 呆滞的猪蹄 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 一、MapReduce设计理念 map >映射 reduce >归纳 mapreduce必须构建在hdfs之上的一种大数据离线计算框架 在线:实时数据处理 离线:数据处理时效性没有在线那么强,但是相对也需要很快得到结果 mapreduce不会马上得到结果,他会有一定的延时(磁盘IO) 如果数据量小, 阅读全文
posted @ 2022-06-23 20:24 呆滞的猪蹄 阅读(54) 评论(0) 推荐(0) 编辑
摘要: 1.1 Hive窗口函数 普通的聚合函数每组(Group by)只返回一个值,而开窗函数则可为窗口中的每行都返回一个值。 简单理解,就是对查询的结果多出一列,这一列可以是聚合值,也可以是排序值。 开窗函数一般就是说的是over()函数,其窗口是由一个 OVER 子句 定义的多行记录 开窗函数一般分为 阅读全文
posted @ 2022-06-08 21:45 呆滞的猪蹄 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 1、count(*)、count(1) 、count('字段名') 区别 从执行结果来看 count(*)包括了所有的列,相当于行数,在统计结果的时候,不会忽略列值为NULL 最慢的 count(1)包括了忽略所有列,用1代表代码行,在统计结果的时候,不会忽略列值为NULL 最快的 count(列名 阅读全文
posted @ 2022-06-08 21:39 呆滞的猪蹄 阅读(80) 评论(0) 推荐(0) 编辑
摘要: 1、Hive分区 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容易很多了。 假如现在我们 阅读全文
posted @ 2022-06-08 20:34 呆滞的猪蹄 阅读(363) 评论(0) 推荐(0) 编辑