对一列数据进行数据清洗
1、将文件中的数据导入进去之后,再创建一个字段名一模一样的表
create table test2(day_id varchar(30),sale_nbr varchar(30),buy_nbr varchar(30),cnt varchar(30),round varchar(30)) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES
(
"separatorChar"=","
)
STORED AS TEXTFILE;
2、进行数据清洗--标准化日期格式
insert overwrite table test2 select date_add('2021-08-31',cast(day_id AS INT)) as day_id,sale_nbr,buy_nbr,cnt,round from test1;
3、数据分析处理--select from的各种用法实现各种查询
1、统计数据1
建的表一定要与我们想要插入进去的结果的字段相一致,不然只能报错:
insert overwrite table test3_1 select day_id,sale_nbr,SUM(cnt),SUM(round) from test2 where sale_nbr like 'C%' group by day_id,sale_nbr;