数据仓库技术与应用 - 随笔分类 - Lilaaa

Hive 元数据

摘要：元数据，即解释数据的数据。在Hive架构中，数据库/表内实际数据存放在HDFS之类的分布式存储系统中，但这些数据并不带有数据库/表/字段之类的描述信息，这些信息均由单独的关系型数据库维护（一般用MySQL）。表信息 TBLS 记录数据表的信息，可以作为左表，去关联表的其他信息。 TABLE_PAR

32

0

视图和索引

摘要：视图和索引 1.视图视图是隐藏了子查询、连接查询等操作的逻辑结构，由数据库的真实数据组成，是一个与真实表不同的虚拟表。只保存定义而不存储数据行列数据均来自视图所引用的表，将在使用视图时动态生成被引用的列被删除视图会报错，删除基表并不会删除视图，需要手动删除视图 Hive视图是只读的，不能插入

14

0

Hive的内置函数（数学、字符串、日期、条件、转换、行转列）

摘要：Hive的内置函数（数学、字符串、日期、条件、转换、行转列） Hive内部提供了很多函数给开发者使用，包括数学函数，集合函数，类型转换函数，日期函数，条件函数，字符函数，聚合函数，表生成函数等等，这些函数都统称为内置函数。 Hive的内置函数一、数学函数 1、取整函数: round 语法:

55

0

Hive高级操作-窗口函数

摘要：窗口函数扫描多个输入行以计算各输出值，可为每行数据分别生成一行结果记录，几乎所有聚合计算都可以通过它来完成。 over（） #两种固定搭配，不能变更 function(arg1,...)OVER(partition by…order by…) function(arg1,...)OVER(dist

11

0

Hive高级操作-排序操作

摘要：排序操作 1. 排序 1.1 order by（全局排序）作用：全局排序，只有一个reducer（多个reducer无法保证全局有序）。升序ASC（ascend），降序DESC（descend）因为全局排序比较耗时，防止单个reducer处理时间过长，当数据规模大时，需设置hive.mapre

86

0

Hive数据库及表操作

摘要：一、基本数据类型数据类型整数 tinyint、smallint、int、bigint 小数 float、double、decimal 文本 string、char、varchar 布尔 boolean 二进制 binary 时间 date、timestamp、interval 💡上述都是对Ja

18

0

Hive高级操作-查询操作

摘要：查询操作 1.select语句 SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [HAVING having_

52

0

掌握Hive数据存储模型

摘要：二、掌握Hive数据存储模型（一）Hive存储格式 1、真实数据（HDFS）存储格式存储 TEXTFILE 行 Hive默认存储格式，常见有txt、csv、tsv SEQUENCEFILE 行二进制序列化过得Key/Value字节流，压缩选项有：None不压缩、RECORD（默认）记录级压缩

24

0

了解Hive基础

摘要：一、了解Hive基础（一）认识Hive 1、背景数据存储在HDFS上没有Schema（模式）的概念，所以Facebook创造Hive将数据从一个现有的数据架构转移到Hadoop Schema：模式，相当于表里的列、字段、字段名称、字段与字段的分隔符 2、数据仓库与数据库的区别数据仓库数据库

6

0

MYSQL语法：左连接、右连接、内连接、全外连接

摘要：概念 left join（左连接）：返回包括左表中的所有记录和右表中连接字段相等的记录。 right join（右连接）：返回包括右表中的所有记录和左表中连接字段相等的记录。 inner join（内连接）：只返回两个表中连接字段相等的行。 full join （全外连接）：返回左右表中所有的记录和

42

0

Lila

我是飞鸟

随笔分类 - 数据仓库技术与应用

公告

搜索

常用链接

我的标签

合集

随笔分类

随笔档案

阅读排行榜