Hive学习4(ETL)
etl数据清洗:案例一
需求1:对字段为空的不合法数据进行过滤
Where过滤
需求2:通过时间字段构建天和小时字段
Substr函数
需求3:从GPS的经纬度中提取经度和维度
Split函数
需求4:将ETL以后的结果保存到一张新的Hive表中
Create table …… as select ……
--如果表已存在就删除 drop table if exists db_msg.tb_msg_etl; --将Select语句的结果保存到新表中 create table db_msg.tb_msg_etl as select *, substr(msg_time,0,10) as dayinfo, substr(msg_time,12,2) as hourinfo, --获取天和小时 split(sender_gps,",")[0] as sender_lng, split(sender_gps,",")[1] as sender_lat --提取经度纬度 from db_msg.tb_msg_source --过滤字段为空的数据 where length(sender_gps) > 0