对一列数据进行数据清洗

1、将文件中的数据导入进去之后,再创建一个字段名一模一样的表

create table test2(day_id varchar(30),sale_nbr varchar(30),buy_nbr varchar(30),cnt varchar(30),round varchar(30)) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES
(
"separatorChar"=","
)
STORED AS TEXTFILE;

2、进行数据清洗--标准化日期格式

insert overwrite table test2 select date_add('2021-08-31',cast(day_id AS INT)) as day_id,sale_nbr,buy_nbr,cnt,round from test1;

3、数据分析处理--select from的各种用法实现各种查询

1、统计数据1

建的表一定要与我们想要插入进去的结果的字段相一致,不然只能报错:

insert overwrite table test3_1 select day_id,sale_nbr,SUM(cnt),SUM(round) from test2 where sale_nbr like 'C%' group by day_id,sale_nbr;
posted @ 2023-09-21 17:08  yesyes1  阅读(20)  评论(0编辑  收藏  举报