基于Hive数仓实现需求开发

1、建库建表与加载数据

上传到HDFS,即加载数据,可以使用命令行进行上传,还可以直接在网页里面进行上传;

在DataGrip软件里面,将tsv文件复制进去,然后将语法转换成Hive语法,并连接Hive;

写入建库建表语句;

之后利用语句将数据加载到表中;

2、ETL数据清洗

1、有些字段为空,数据不合法

涉及到的相关字段的数据的长度为0即可排除掉,解决该问题

2、时间上融合在一起,没有特定的各自的字段,性能下降

substr函数进行数据截取,之后可进行group分组查询;

3、经纬度作为一个字段,作图不方便

使用split函数,经度纬度各一个字段;

4、将某个查询结果存储到另一个表中(ctas语法)

create table ... as select...

3、需求指标统计

这个就是sql语句的相关的灵活运用

posted @ 2023-08-22 11:39  yesyes1  阅读(20)  评论(0编辑  收藏  举报