大数据清洗阶段2

补一下前天的进度

前天主要完成了清洗以后的数据导入hive以及数据的处理(统计前10个)

下一阶段计划完成数据可视化展示

 

 

2.数据处理

1.统计最受欢迎的视频/文章的Top10访问次数 (video/article)

视频:

 

 

 

 

文章:

 

 

 

2.按照地市统计最受欢迎的Top10课程 (ip)

没有理解这个题什么意思 

我理解的是分别统计每个城市最受欢迎的前10个课程 然后我按IP和id进行分组 但是这样出来的结果不对 不知道咋整

 

 

3.·按照流量统计最受欢迎的Top10课程 (traffic)

 

 

 

 

 

3、数据可视化:将统计结果倒入MySql数据库中,通过图形化展示的方式展现出来。

将HIVE中的表数据导出到临时文件中

 

 

 

posted @ 2019-11-17 10:34  云破月来花弄影  阅读(214)  评论(0编辑  收藏  举报