代码改变世界

大数据应用期末总评

2019-06-17 08:52  科ke  阅读(315)  评论(0编辑  收藏  举报

 

删除首行记录

             

生成txt文件

 

上传到hdfs中:

 

在hive中创建数据表并把hdfs的数据导入表中

 

使用hive进行数据分析:

查询总记录数(如图)由于以空行作为分隔符,因此实际数据量应当除以2,即16万。

 

 

搜索量最高的是?

选取“搜索量”列进行降序排序,并选取排名前十的数据

从表中可以看出搜索量最高的是“刘恺威杨幂离婚”唯一一个搜索量突破2000万,其次是“鹿晗关晓彤”“李咏去世” “赵丽颖冯绍峰结婚”,有趣的是:微博热搜量排名前十的竟然有九个是明星事件,而且排名前五的事件竟有三条是明星恋情。据此,我们可以发现,微博用户最为关注的事件是“明星恋情”。

 

 

微博热搜搜索量和排名有怎样的关系?是否仅根据微博搜索量来决定排名?

从排名来看,十条记录中一条是排名第二,据此可以说明搜索量和排名呈正相关关系,但排名并非是完全由搜索量决定,或许还有其他因素。

查询排名前十记录:

 

按年份降序查询:

 

按年份升序查询:

 

因此该数据集是从2017年10月1日到2019年3月9日的数据,约为500天

 

查询当天最高排名为1的记录,约为7000条,根据计算

 

根据计算得出每天约有14条记录能够升到排名第一。

查询排名第一的记录并列出前十条:

 

 

 

 

 

 

查询排名小于3的记录,共1348条:

 

查询2018年2月5日的记录:

 

 

 

 

 

 

查询微博热搜内容包含春晚的记录:

 

按最高排名进行分组:

 

按最高排名进行分组并筛选数量大于4000的记录: