Hive学习4(ETL)

etl数据清洗:案例一
 需求1:对字段为空的不合法数据进行过滤
Where过滤
需求2:通过时间字段构建天和小时字段
Substr函数
需求3:从GPS的经纬度中提取经度和维度
Split函数
需求4:将ETL以后的结果保存到一张新的Hive表中
Create table …… as select ……
--如果表已存在就删除
drop table if exists db_msg.tb_msg_etl;
--将Select语句的结果保存到新表中
create table db_msg.tb_msg_etl as
select
*,
substr(msg_time,0,10) as dayinfo, substr(msg_time,12,2) as hourinfo, --获取天和小时
split(sender_gps,",")[0] as sender_lng, split(sender_gps,",")[1] as sender_lat --提取经度纬度
from db_msg.tb_msg_source
--过滤字段为空的数据
where length(sender_gps) > 0

 

posted on 2023-09-26 21:47  201812  阅读(49)  评论(0编辑  收藏  举报