呆滞的猪蹄 - 博客园

2022年6月23日

摘要：一、了解HBase 1.1 HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据 HBase是Hadoop的生态系统之一，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hadoop的文件系阅读全文

posted @ 2022-06-23 22:17 呆滞的猪蹄阅读(108) 评论(0) 推荐(0)

HQL练习员工案例

摘要：复习员工案例 sql:Hive实现按照指定格式输出每七天的消费平均数输出格式：2018-06-01~2018-06-07 12.29...2018-08-10~2018-08-16 80.67 数据如下：2018/6/1,102018/6/2,112018/6/3,112018/6/4,122018 阅读全文

posted @ 2022-06-23 21:06 呆滞的猪蹄阅读(56) 评论(0) 推荐(0)

HQL练习

摘要：员工信息表emp：字段：员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号英文名：EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNO create table emp( EMPNO int ,ENAME string ,JOB strin 阅读全文

posted @ 2022-06-23 21:04 呆滞的猪蹄阅读(81) 评论(0) 推荐(0)

Hive优化

摘要： 1.1 hive的随机抓取策略理论上来说，Hive中的所有sql都需要进行mapreduce，但是hive的抓取策略帮我们省略掉了这个过程，把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置，select字段名也是阅读全文

posted @ 2022-06-23 21:00 呆滞的猪蹄阅读(201) 评论(0) 推荐(0)

连续登录问题解决

摘要：连续登陆问题在电商、物流和银行可能经常会遇到这样的需求：统计用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数等数据：注意：每个用户每天可能会有多条记录 id datestr amount 1,2019-02-08,6214.23 1,2019-02-08,6247.32 1, 阅读全文

posted @ 2022-06-23 20:44 呆滞的猪蹄阅读(126) 评论(0) 推荐(0)

MapReduce案例

摘要：一、MapReduce案例 1.1 好友推荐系统固定类别推荐莫扎特 >钢琴 >贝多芬 >命运交响曲数据量 QQ好友推荐 > 每个QQ200个好友 5亿QQ号解决思路：需要按照行进行计算将相同推荐设置成相同的key，便于reduce统一处理数据： tom hello hadoop cat 阅读全文

posted @ 2022-06-23 20:35 呆滞的猪蹄阅读(153) 评论(0) 推荐(0)

MapReduce

摘要：一、MapReduce设计理念 map >映射 reduce >归纳 mapreduce必须构建在hdfs之上的一种大数据离线计算框架在线：实时数据处理离线：数据处理时效性没有在线那么强，但是相对也需要很快得到结果 mapreduce不会马上得到结果，他会有一定的延时（磁盘IO）如果数据量小，阅读全文

posted @ 2022-06-23 20:24 呆滞的猪蹄阅读(89) 评论(0) 推荐(0)

2022年6月8日

Hive窗口函数

摘要： 1.1 Hive窗口函数普通的聚合函数每组(Group by)只返回一个值，而开窗函数则可为窗口中的每行都返回一个值。简单理解，就是对查询的结果多出一列，这一列可以是聚合值，也可以是排序值。开窗函数一般就是说的是over（）函数，其窗口是由一个 OVER 子句定义的多行记录开窗函数一般分为阅读全文

posted @ 2022-06-08 21:45 呆滞的猪蹄阅读(206) 评论(0) 推荐(0)

Hive基本函数

摘要： 1、count(*)、count(1) 、count('字段名') 区别从执行结果来看 count(*)包括了所有的列，相当于行数，在统计结果的时候，不会忽略列值为NULL 最慢的 count(1)包括了忽略所有列，用1代表代码行，在统计结果的时候，不会忽略列值为NULL 最快的 count(列名阅读全文

posted @ 2022-06-08 21:39 呆滞的猪蹄阅读(138) 评论(0) 推荐(0)

Hive分区与分桶

摘要： 1、Hive分区在大数据中，最常见的一种思想就是分治，我们可以把大的文件切割划分成一个个的小的文件，这样每次操作一个个小的文件就会很容易了，同样的道理，在hive当中也是支持这种思想的，就是我们可以把大的数据，按照每天或者每小时切分成一个个小的文件，这样去操作小的文件就会容易很多了。假如现在我们阅读全文

posted @ 2022-06-08 20:34 呆滞的猪蹄阅读(457) 评论(0) 推荐(0)

路漫漫其修远兮

公告