10月7日

测试题目:

1、数据导入:

   要求将样表文件中的(AA_GXJSQYDC2019)数据导入HIVE数据仓库中。

分别将四个标准维度表导入数据仓库中。

2、数据清洗:

   根据标准维度将国民经济行业维度、地域维度、高新技术领域维度、企业所属领域维度四个维度字段清洗完成。

3、数据可视化展示:

   尝试按照某一维度实现数据下钻展示。(例如地域维度,按照市——县两级展示)

 

今天的测试题目,我不知道怎么用hive去做多表的数据清洗我按步骤尽量完成

 

 

导入原始表

1.

create table hb(id string,QA04  string,QA05 string,QA07  string,QA15 string,QA19 string,QB string,QB03 string,QB03ONE string,QB03TWO string,QB03_1 string,QB06 string,QB16J string,QB16V string,QB16 string,QB16_1 string,QB16_1V string,QC02 string,QC05_0 string,QC24 string,QC40 string,QD01 string,QD28 string,QJ09 string,QJ20 string,QJ55 string,QJ74 string,QA string,SYEAR string)Row format delimited fields terminated by ',';

 

2.

load data local inpath '/opt/software/apache-hive-2.3.9-bin/211.csv' into table hb;

 

导入行政地区划分代码表

3.

create table pl(pid string,pname string,pxx string)Row format delimited fields terminated by ',';

load data local inpath '/opt/software/apache-hive-2.3.9-bin/xingzheng.csv' into table pl;

 

导入企业维度划分表

4.

create table qy(qyid string,qywd string)Row format delimited fields terminated by ',';

 

 

load data local inpath '/opt/software/apache-hive-2.3.9-bin/qiyeweidu.csv' into table qy;

 

 

5.关联行政地区表

elect hb.id ,hb.QA04,hb.QA19,

concat(pl.pid,pl.pname) as  ppname

    from hb join pl on hb.QA19=pl.pid ;

 

 

 

 

6.

关联企业维度表

 

 

 

 

7.关联两个表

 

 

posted @ 2021-10-07 22:58  不咬牙  阅读(41)  评论(0编辑  收藏  举报