书犹药也,善读之可以医愚。|

Lilaaa

园龄:1年粉丝:0关注:0

随笔分类 -  数据仓库技术与应用

Hive 元数据
摘要:元数据,即解释数据的数据。在Hive架构中,数据库/表内实际数据存放在HDFS之类的分布式存储系统中,但这些数据并不带有数据库/表/字段之类的描述信息,这些信息均由单独的关系型数据库维护(一般用MySQL)。 表信息 TBLS 记录数据表的信息,可以作为左表,去关联表的其他信息。 TABLE_PAR
32
0
0
视图和索引
摘要:视图和索引 1.视图 视图是隐藏了子查询、连接查询等操作的逻辑结构,由数据库的真实数据组成,是一个与真实表不同的虚拟表。 只保存定义而不存储数据 行列数据均来自视图所引用的表,将在使用视图时动态生成 被引用的列被删除视图会报错,删除基表并不会删除视图,需要手动删除视图 Hive视图是只读的,不能插入
14
0
0
Hive的内置函数(数学、字符串、日期、条件、转换、行转列)
摘要:Hive的内置函数(数学、字符串、日期、条件、转换、行转列) ​ Hive内部提供了很多函数给开发者使用,包括数学函数,集合函数,类型转换函数,日期函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。 Hive的内置函数 一、数学函数 1、 取整函数: round 语法:
55
0
0
Hive高级操作-窗口函数
摘要:窗口函数 扫描多个输入行以计算各输出值,可为每行数据分别生成一行结果记录,几乎所有聚合计算都可以通过它来完成。 over() #两种固定搭配,不能变更 function(arg1,...)OVER(partition by…order by…) function(arg1,...)OVER(dist
11
0
0
Hive高级操作-排序操作
摘要:排序操作 1. 排序 1.1 order by(全局排序) 作用:全局排序,只有一个reducer(多个reducer无法保证全局有序)。 升序ASC(ascend),降序DESC(descend) 因为全局排序比较耗时,防止单个reducer处理时间过长,当数据规模大时,需设置hive.mapre
86
0
0
Hive数据库及表操作
摘要:一、基本数据类型 数据类型 整数 tinyint、smallint、int、bigint 小数 float、double、decimal 文本 string、char、varchar 布尔 boolean 二进制 binary 时间 date、timestamp、interval 💡上述都是对Ja
18
0
0
Hive高级操作-查询操作
摘要:查询操作 1.select语句 SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [HAVING having_
52
0
0
掌握Hive数据存储模型
摘要:二、掌握Hive数据存储模型 (一)Hive存储格式 1、真实数据(HDFS) 存储格式 存储 TEXTFILE 行 Hive默认存储格式,常见有txt、csv、tsv SEQUENCEFILE 行 二进制序列化过得Key/Value字节流,压缩选项有:None不压缩、RECORD(默认)记录级压缩
24
0
0
了解Hive基础
摘要:一、了解Hive基础 (一)认识Hive 1、背景 数据存储在HDFS上没有Schema(模式)的概念,所以Facebook创造Hive将数据从一个现有的数据架构转移到Hadoop Schema:模式,相当于表里的列、字段、字段名称、字段与字段的分隔符 2、数据仓库与数据库的区别 数据仓库 数据库
6
0
0
MYSQL语法:左连接、右连接、内连接、全外连接
摘要:概念 left join(左连接):返回包括左表中的所有记录和右表中连接字段相等的记录。 right join(右连接):返回包括右表中的所有记录和左表中连接字段相等的记录。 inner join(内连接):只返回两个表中连接字段相等的行。 full join (全外连接):返回左右表中所有的记录和
42
0
0
点击右上角即可分享
微信分享提示
深色
回顶
收起