数据清洗
1、数据导入:
要求将样表文件中的(AA_GXJSQYDC2019)数据导入HIVE数据仓库中。
分别将四个标准维度表导入数据仓库中。
2、数据清洗:
根据标准维度将国民经济行业维度、地域维度、高新技术领域维度、企业所属领域维度四个维度字段清洗完成。
建表
create table temps(ID string,QA04 string,QA05 string,QA07 string,QA15 string,QA19 string,QA_S string,QB03 string,QB03ONE string,QB03TWO string,QB03_1 string,QB06 string,QB16 string,QB16V string,QB16_S string,QB16_1 string,QB16_1V string,QC02 string,QC05_0 string,QC24 string,QC40 string,QD01 string,QD28 string,QJ09 string,QJ20 string,QJ55 string,QJ74 string,QJ_S string,SYEAR string) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES('separatorChar' = ',','quoteChar' = '\"','escapeChar' = '\\')STORED AS TEXTFILE;
导入数据
建表
create table xingzhengs(dm string,dmms string) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES('separatorChar' = ',','quoteChar' = '\"','escapeChar' = '\\')STORED AS TEXTFILE;
导入数据
然后在hive输入
select
temps.ID,
temps.qa04,
temps.qa05,
temps.qa07,
temps.qa15,
temps.qa19,
temps.qa_s,
temps.qb03,
temps.qb03one,
temps.qb03two,
temps.qb03_1,
temps.qb06,
temps.qb16,
temps.qb16v,
temps.qb16_S,
temps.qb16_1,
temps.qb16_1v,
temps.qc02,
temps.qc05_0,
temps.qc24,
temps.qc40,
temps.qd01,
temps.qd28,
temps.qj09,
temps.qj20,
temps.qj55,
temps.qj74,
xingzhengs.dmms,
temps.syear
from temps
inner join xingzhengs on temps.qa19 = xingzhengs.dm;
再将数据导入mysql