6:旅游大数据综合实验

〇、概述

旅游大数据实验以网络上的评论数据为例,进行数据的抓取、存储、分析和展示,通过该案例的学习,能够了解一般数据分析的基本流程和采用的基本分析技术,为将大数据技术应用到其他行业奠定基础。

一、爬取数据

我们将众誉旅游大数据网站上爬取其中一个景区的部分评论数据。爬取的众誉大数据页面的网址是http://zydsj.net/zydsj.html。界面如下:

1、打开Pycharm

双击桌面Pycharm图标,启动Pycharm。

2、打开项目spider

在Pycharm导航栏中选择File->Open,选择文件夹/home/user/PycharmProjects/spider,点击OK打开项目。

爬虫代码主要使用requests包和etree对指定网页的指定的数据进行爬取。

3、执行程序

在项目文件中右键,选择Run执行程序程序会爬取评论数据并存储在文件中,文件路径为/home/user/CommentFile/commentFile

4、观察实验结果

打开终端,输入命令cat /home/user/CommentFile/commentFile文件内容如图所示

cat /home/user/CommentFile/commentFile

二、数据存储

1、打开Idea

双击桌面Idea图标打开IDE。

2、打开项目hbase_test

如下图所示,打开项目(如果已经打开就不需要重复打开了)。

该项目中有3个文件,HbasePut.java用于将爬取下来的数据存入Hbase中,Hbase是分布式存储数据库,具有高可靠性、高性能,用于海量数据的存储。HbaseGet.java用于从Hbase中取出数据,经过处理后存入文件。WordFrequencyCount.java用于词频计算,是HbaseGet.java调用的,用于处理数据的文件。

3、执行程序

首先启动Hbase。打开终端,依次输入:

start-dfs.sh

zkServer.sh

startstart-hbase.sh

打开项目中HbasePut.java文件,右键运行程序程序会将爬取下来的数据存储到Hbase中。

start-dfs.sh
zkServer.sh start
start-hbase.sh

4、观察结果

进入hhase shell,在终端中输入:hbase shell查看tourism表中数据是否已经存在。

输入:scan 'tourism'

5、数据处理

打开HbaseGet.java,右键选择运行。该程序会对存储的评论数据进行处理,为统计词频和情感分析做准备。文件存储于/home/user/CommentFile/commentFrequencyCount.txt和/home/user/CommentFile/comments.txt中。

三、情感分析

1、启动Pycharm并打开项目predict

双击Pycharm图标,启动Pycharm选择File->Open打开项目predict。

其中的DB_raw_predict.py通过使用已经建立的模型,对评论数据进行情感分析。

2、执行程序

在DB_raw_predict.py文件中右键选择Run执行程序。

3、观察结果

在终端中输入cat /home/user/CommentFile/pie.txt查看情感分析的结果(其中1表示正面评论,0表示负面评论)。

cat /home/user/CommentFile/pie.txt

四、绘制词云

1、启动Pycharm并打开项目

双击桌面Pycharm图标打开编辑工具在Pycharm导航栏中选择File->Open,选择项目/home/user/PycharmProjects/wordcloud。

wordcloud.py是通过echarts的python库来实现词云。

2、执行程序

在wordcloud.py文件右键,选择Run执行程序程序执行结束后,会在桌面生成wordcloud.html文件。

3、观察结果

双击wordcloud.html文件即可在浏览器中观察结果。

五、绘制饼图

1、启动Pycharm并打开项目

双击桌面Pycharm图标打开编辑工具在Pycharm导航栏中选择File->Open,选择项目/home/user/PycharmProjects/pie。

pie.py同样是通过echarts库实现饼图绘制。

2、执行程序

在pie.py文件右键,选择Run执行程序程序执行结束后,会在桌面生成pie.html文件。

3、观察结果

双击文件即可在浏览器中观察结果。

posted @ 2022-06-19 19:46  哥们要飞  阅读(105)  评论(0编辑  收藏  举报