数据清洗

1、数据导入:

要求将样表文件中的AA_GXJSQYDC2019数据导入HIVE数据仓库中。

分别将四个标准维度表导入数据仓库中。

2、数据清洗:

根据标准维度将国民经济行业维度地域维度、高新技术领域维度企业所属领域维度四个维度字段清洗完成。

建表

create table temps(ID string,QA04 string,QA05 string,QA07 string,QA15 string,QA19 string,QA_S string,QB03 string,QB03ONE string,QB03TWO string,QB03_1 string,QB06 string,QB16 string,QB16V string,QB16_S string,QB16_1 string,QB16_1V string,QC02 string,QC05_0 string,QC24 string,QC40 string,QD01 string,QD28 string,QJ09 string,QJ20 string,QJ55 string,QJ74 string,QJ_S string,SYEAR string) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES('separatorChar' = ',','quoteChar'     = '\"','escapeChar'    = '\\')STORED AS TEXTFILE;

 

导入数据

 

建表

create table xingzhengs(dm string,dmms string) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES('separatorChar' = ',','quoteChar'     = '\"','escapeChar'    = '\\')STORED AS TEXTFILE;

 

导入数据

 

然后在hive输入

select

temps.ID,

temps.qa04,

temps.qa05,

temps.qa07,

temps.qa15,

temps.qa19,

temps.qa_s,

temps.qb03,

temps.qb03one,

temps.qb03two,

temps.qb03_1,

temps.qb06,

temps.qb16,

temps.qb16v,

temps.qb16_S,

temps.qb16_1,

temps.qb16_1v,

temps.qc02,

temps.qc05_0,

temps.qc24,

temps.qc40,

temps.qd01,

temps.qd28,

temps.qj09,

temps.qj20,

temps.qj55,

temps.qj74,

xingzhengs.dmms,

temps.syear

from temps

inner join xingzhengs on temps.qa19 = xingzhengs.dm;

再将数据导入mysql

 

 

 

 

posted @ 2021-12-05 19:36  墨夕相拥★  阅读(81)  评论(0编辑  收藏  举报