随笔分类 - Hive
Hive On Spark调优
摘要:第1章 集群环境概述 1.1 集群配置概述 本课程所用集群由5台节点构成 其中2台为master节点: 用于部署HDFS的NameNode Yarn的ResourceManager 另外3台为worker节点,用于部署HDFS的DataNode、Yarn的NodeManager等角色。 Master
Hive SQL题库-高级
摘要:第1题 同时在线人数问题 1.1 题目需求 现有各直播间的用户访问记录表(live_events)如下,表中每行数据表达的信息为,一个用户何时进入了一个直播间,又在何时离开了该直播间。 | user_id(用户id) | live_id(直播间id) | in_datetime(进入直播间的时间)
Hive SQL题库-中级
摘要:第一章 环境准备 1.1 用户信息表 1)表结构 | user_id(用户id) | gender(性别) | birthday(生日) | | | | | | 101 | 男 | 1990-01-01 | | 102 | 女 | 1991-02-01 | | 103 | 女 | 1992-03-0
Hive SQL题库-初级
摘要:第一章 环境准备 1.1 建表语句 hive> -- 创建学生表 DROP TABLE IF EXISTS student; create table if not exists student_info( stu_id string COMMENT '学生id', stu_name string
Hive性能优化
摘要:一、Hive表设计优化 1.1 分区表 1.1.1 Hive查询基本原理 Hive的设计思想是通过元数据将HDFS上的文件映射成表,基本的查询原理是当用户通过HQL语句对Hive中的表进行复杂数据处理和计算时,默认将其转换为分布式计算MapReduce程序对HDFS中的数据进行读取处理的过程。 例如
Hive实战
摘要:1 需求描述 统计硅谷影音视频网站的常规指标,各种TopN指标: 统计视频观看数Top10 统计视频类别热度Top10 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数 统计视频观看数Top50所关联视频的所属类别Rank 统计每个类别中的视频热度Top10,以Music为
Hive函数重要应用案例(窗口函数、拉链表)
摘要:五、窗口函数应用实例 5.1 连续登陆用户 需求 当前有一份用户登录数据如下图所示,数据中有两个字段,分别是userId和loginTime。 userId表示唯一的用户ID,唯一标识一个用户,loginTime表示用户的登录日期,例如第一条数据就表示A在2021年3月22日登录了。 现在需要对用户
Hive函数重要应用案例(多字节分隔符、URL解析函数、行列转换、JSON处理)
摘要:一、多字节分隔符 1.1 应用场景 Hive中的分隔符 Hive中默认使用单字节分隔符来加载文本数据,例如逗号、制表符、空格等等,默认的分隔符为\001。根据不同文件的不同分隔符,我们可以通过在创建表时使用 row format delimited fields terminated by ‘单字节
Hive函数、运算符使用
摘要:一、Hive内置运算符 随着Hive版本的不断发展,在Hive SQL中支持的、内置的运算符也越来越多。可以使用下面的命令查看当下支持的运算符和函数,并且查看其详细的使用方式。 https://cwiki.apache.org/confluence/display/Hive/LanguageManu
HiveSQL 数据操控、查询语言(DML、DQL)
摘要:一、DML-Load加载数据 1.1 背景 回想一下,当在Hive中创建好表之后,默认就会在HDFS上创建一个与之对应的文件夹,默认路径是由参数hive.metastore.warehouse.dir控制,默认值是**/user/hive/warehouse**。 要想让hive的表和结构化的数据文
HiveSQL 数据定义语言(DDL)
摘要:一、数据定义语言(DDL)概述 1.1 DDL语法的作用 数据定义语言 (Data Definition Language, DDL),是SQL语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言,这些数据库对象包括database(schema)、table、view、index等。核心
Hive入门
摘要:一、Hive 基本概念 1.1 什么是 Hive Apache Hive是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文
Hive常用函数大全
摘要:第一章 算数运算 1.1 加法: + 语法:A + B 操作类型:所有数值类型 说明: 返回A与B相加的结果。结果的数值类型等于A的类型和B的类型的最小父类型(详见数据类型的继承关系)。比如,int + int 一般结果为int类型,而 int + double 一般结果为double类型