Hive-day06 Hive内外部表

Hive内外部表

hive内部表

默认建表的类型就是内部表

// 内部表
create table students_internal
(
    id bigint,
    name string,
    age int,
    gender string,
    clazz string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','  
LOCATION '/input2';

hive> dfs -put /usr/local/soft/data/students.txt /input2/;

当创建好表的时候，HDFS会在当前表所属的库中创建一个文件夹

当设置表路径的时候，如果直接指向一个已有的路径,可以直接去使用文件夹中的数据

当load数据的时候，就会将数据文件存放到表对应的文件夹中

而且数据一旦被load，就不能被修改

我们查询数据也是查询文件中的文件,这些数据最终都会存放到HDFS

当我们删除表的时候，表对应的文件夹会被删除，同时数据也会被删除

2.4.1 Hive外部表

外部表说明

外部表因为是指定其他的hdfs路径的数据加载到表中来，所以hive会认为自己不完全独占这份数据

删除hive表的时候，数据仍然保存在hdfs中，不会删除。

// 外部表
create external table students_external
(
    id bigint,
    name string,
    age int,
    gender string,
    clazz string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/input3';

hive> dfs -put /usr/local/soft/data/students.txt /input3/;

一般情况，使用外部表多一点，因为数据可以需要被多个程序使用，避免误删，通常外部表会结合location一起使用

外部表还可以将其他数据源中的数据映射到 hive中，比如说：hbase，ES

设计外部表的初衷就是让表的元数据与数据解耦

操作案例: 分别创建dept，emp，salgrade。并加载数据。

创建数据文件存放的目录

hdfs dfs -mkdir -p /shujia/bigdata17/dept
hdfs dfs -mkdir -p /shujia/bigdata17/emp
hdfs dfs -mkdir -p /shujia/bigdata17/salgrade

创建dept表

CREATE EXTERNAL TABLE IF NOT EXISTS dept (
  DEPTNO int,
  DNAME varchar(255),
  LOC varchar(255)
) row format delimited fields terminated by ','
location '/shujia/bigdata17/dept';

10,ACCOUNTING,NEW YORK
20,RESEARCH,DALLAS
30,SALES,CHICAGO
40,OPERATIONS,BOSTON

创建emp表

CREATE EXTERNAL TABLE IF NOT EXISTS emp (
   EMPNO int,
   ENAME varchar(255),
   JOB varchar(255),
   MGR int,
   HIREDATE date,
   SAL decimal(10,0),
   COMM decimal(10,0),
   DEPTNO int
 ) row format delimited fields terminated by ','
 location '/shujia/bigdata17/emp';
 
7369,SMITH,CLERK,7902,1980-12-17,800,null,20
7499,ALLEN,SALESMAN,7698,1981-02-20,1600,300,30
7521,WARD,SALESMAN,7698,1981-02-22,1250,500,30
7566,JONES,MANAGER,7839,1981-04-02,2975,null,20
7654,MARTIN,SALESMAN,7698,1981-09-28,1250,1400,30
7698,BLAKE,MANAGER,7839,1981-05-01,2850,null,30
7782,CLARK,MANAGER,7839,1981-06-09,2450,null,10
7788,SCOTT,ANALYST,7566,1987-07-13,3000,null,20
7839,KING,PRESIDENT,null,1981-11-17,5000,null,10
7844,TURNER,SALESMAN,7698,1981-09-08,1500,0,30
7876,ADAMS,CLERK,7788,1987-07-13,1100,null,20
7900,JAMES,CLERK,7698,1981-12-03,950,null,30
7902,FORD,ANALYST,7566,1981-12-03,3000,null,20
7934,MILLER,CLERK,7782,1982-01-23,1300,null,10

创建salgrade表

CREATE EXTERNAL TABLE IF NOT EXISTS salgrade (
  GRADE int,
  LOSAL int,
  HISAL int
) row format delimited fields terminated by ','
location '/shujia/bigdata17/salgrade';

1,700,1200
2,1201,1400
3,1401,2000
4,2001,3000
5,3001,9999

2.5 Hive导出数据

将表中的数据备份

将查询结果存放到本地

//创建存放数据的目录
mkdir -p /usr/local/soft/shujia

//导出查询结果的数据(导出到Node01上)
insert overwrite local directory '/usr/local/soft/shujia/person_data' select * from t_person;

按照指定的方式将数据输出到本地

-- 创建存放数据的目录
mkdir -p /usr/local/soft/shujia

-- 导出查询结果的数据
insert overwrite local directory '/usr/local/soft/shujia/person' 
ROW FORMAT DELIMITED fields terminated by ',' 
collection items terminated by '-' 
map keys terminated by ':' 
lines terminated by '\n' 
select * from t_person;

将查询结果输出到HDFS

-- 创建存放数据的目录
hdfs dfs -mkdir -p /shujia/bigdata17/copy

-- 导出查询结果的数据
insert overwrite directory '/shujia/bigdata17/user' 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
select * from t_user;

直接使用HDFS命令保存表对应的文件夹

// 创建存放数据的目录
hdfs dfs -mkdir -p /shujia/bigdata17/person

// 使用HDFS命令拷贝文件到其他目录
hdfs dfs -cp /hive/warehouse/t_person/*  /shujia/bigdata17/person

将表结构和数据同时备份

将数据导出到HDFS

//创建存放数据的目录
hdfs dfs -mkdir -p /shujia/bigdata17/copy

//导出查询结果的数据
export table t_person to '/shujia/bigdata17/copy';

删除表结构

drop table t_person;

恢复表结构和数据

import from '/shujia/bigdata17';

注意：时间不同步，会导致导入导出失败

posted on 2022-06-29 20:01 +1000 阅读(59) 评论(0) 编辑收藏举报

Hive-day06 Hive内外部表

Hive内外部表

hive内部表

2.4.1 Hive外部表

2.5 Hive导出数据

搜索

常用链接

随笔分类

随笔档案

阅读排行榜