Hadoop综合大作业

 

作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

 

前言

你身处的环境是什么样,你就会成为什么样的人。现在人们日常生活基本上离不开微信,但微信不单单是一个即时通讯软件,微信更像是虚拟的现实世界。你所处的朋友圈是怎么样,慢慢你的思想也会变的怎么样。

大数据分析:

1.将爬虫大作业产生的csv文件上传到HDFS

 

2.对CSV文件进行预处理生成无标题文本文件

 

 

3.把hdfs中的文本文件最终导入到数据仓库Hive中

 

想要把数据导入到数据库Hive中,首先要通过命令把服务全部开启

 

把hdfs中的文本文件最终导入到数据仓库Hive中

 

4.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

1。查询总共爬取了多少微信好友

分析:从查询的数据可以看出,爬取到的我的微信账号总共有870个。

 

 2.查询不重复ID的评论数

 

分析:去掉重复ID后,真正爬取到的的微信好友只有602位。

 

3.查询微信好友前10名的城市

分析:可以看到最多的城市为空,是因为微信好友很多人没有写城市,然后分别是广州,因为大学在广州上的缘故吧;第二多的城市为汕尾,是因为老家在汕尾;紧接着就是深圳湛江汕头等大城市了。

 

4.查询微信好友所在省份的前10

分析:可以看出最多的省份为广东,因为本人就没出过省,第二多的值为空,也是因为部分微信好友没有城市值,紧接着就是Paris巴黎?还有Victoria这些外国城市了。

 

5.查询微信好友女生的数量

分析:微信好友里女生数为257,远远少于男生数297,主要是因为学校男女比例3:7的原因吧

 

6.查询微信好友男生的数量

分析:可以看出微信好友里女生数量加男生数量并没有达到爬取到的微信好友数量602,因为有很多微信好友是没有性别的(比如机器人,微信运动之类的)。

 

7.查询在省份广东的男生

分析:可以看出在广东的男生达到207个,微信好友里除了广东的其它地方只有(297-207)=70个

 

8.查询城市在汕尾的女生

分析:可以看到在汕尾的女生数量只有19个,这19个大概率是初高中认识的女生因为老家在汕尾,因为以前也没有玩微信,所以女生数量比较少。

 

9.查询统计微信好友有关“努力”的个性签名有多少

分析:努力是正能量的代表,说明我的微信好友里面有小部分人也是很正能量的,他们把类似于努力 ,加油等关键词作为个性签名激励自己。

 

10.查询微信好友个性签名中带有“努力”关键字的好友

 

分析:微信好友个性签名中带有努力的都比较励志,让人看了都充满力量。

 

总结:

这次的数据分析主要运用到了hdfs上传数据文件和hive分析文本。在进行数据分析的时候也重新学了一下数据库的相关语句。

通过学习本学期的大数据课程,学习并掌握了以下几项技能:python编程,爬取所需要的数据进行合适的分析,linux系统搭建大数据平台,大数据hadoop应用等等。

微信是一个神奇的存在,它是一个国民级别的全民APP,是值得我们透过人性和心理去研究的。人类总渴望着别人了解自己,可人类真的了解自己吗?

这篇博客是我对数据分析的一次尝试,主要从性别、签名、地理位置这几个维度,对微信好友进行了一次简单的数据分析,得出我的微信好友基本来自于广东省广州市,男女比例接近平衡。总而言之一句话,”数据可视化是手段而并非目的”,重要的不是我们在这里做了这些出来,而是从这些里反映出来的东西。

 

附历次作业链接:

分布式文件系统HDFS练习

安装Hadoop

爬虫综合大作业(爬取微信好友)

爬取全部的校园新闻

理解爬虫原理

中文词频统计与词云生成

复合数据类型,英文词频统计

字符串操作,文件操作,英文词频统计

 了解大数据的特点,来源与数据呈现方式

posted @ 2019-06-19 17:28  陈泽诚  阅读(328)  评论(0编辑  收藏  举报