Python爬取猫眼电影《飞驰人生》47858万条评论并对其进行数据分析

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者： Yura不说数据说，PYuraL

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef

数据爬取

其实我一开始是想用豆瓣网的评论的，但是我翻了翻吧，发现“最热评论”只能看到500条，“最新评论”只能显示100条，拿600条数据能分析出个啥？在这里插入图片描述

百度了一下，看大家都是用猫眼评论，于是就……爬猫眼！网页版的猫眼只能显示有限的评论，切换到APP版本才能看到所有评论。

在这里插入图片描述

找network里面的网页也不难，随便拿一条评论搜索一下就可以找到👇

在这里插入图片描述

关键是找到不同网页之间的变化规律

在这里插入图片描述

有

些网址，表面看上去，区别就是在于offset（偏移量），但是实际上更改这个数值到1005的时候就爬不到东西了（可能是由于网页内部的设置吧），就是说这么下去我们只能得到1000条评论。

那是哪1000条评论呢？我们看到网址中有个关键词“ts=1549640420581”，其实就是当前时间的意思（时间戳），转化一下就是：在这里插入图片描述

所以1000条就是从这个时间点，往前偏移15条后，最新的1000条评论。

通过百度各位大神的爬虫过程，我发现终极解决方法就是更改ts的值！如果说偏移量15的意思是从这个查询的时间往前偏移15条再取得15条评论数据（limit=15），那么我们每次更改ts值不就可以了。

第一个ts值是程序开始运行的时间，第二个值就从已经获取的评论数据中拿到最早的那个数据，以此不断往前翻滚……

我爬取了2月8日24点之前的所有评论信息，按App显示此时至少有80000+条数据，但是我爬下来总共只有4w+条…数据缺失还是比较严重的。

在这里插入图片描述

数据格式如下（包括用户id、用户昵称、用户猫眼等级、性别、时间、评分、评论内容、点赞数和评论数）：

在这里插入图片描述

这些都是在json里面，格式非常清晰明了。

在这里插入图片描述

数据清洗

拿到数据除了做词云用了Python（代码在最后），其他的内容Excel分分钟解决，这里尤其感谢发明“数据透视表”的兄弟。

数据分析

1.观众信息

在这里插入图片描述

男女比例各占一半，男的对赛车这类刺激性东西感兴趣可以理解，这女观众都是为了啥？为了黄景瑜小哥哥的脸？还是像我一样冲着阿信来的？这里信息太少，我只做少量胡思乱猜。在这里插入图片描述

用户等级又是类似于正态分布的形状，巧的嘞……其中0分和1分的用户（可以认定为新注册用户）仅占9.78%，可以看出评分的人中水军是很少的，基本都是猫眼老用户。

再看看4天用户评价数量的变化：

在这里插入图片描述

基本可得这部电影热度呈现缓慢下降的趋势（但是由于数据的不完整性，不能绝对说明）

那用户都喜欢在什么时间评论呢？对比看四天的评论hour数据：

在这里插入图片描述

如果大家习惯看完电影马上评价的话，那么从评论趋势来看，从中午12点之后评论数逐渐增加，推测是由于早上10点左右那场电影的结束。随后评论数不断增加，在晚饭前的5、6点和睡觉前的23点左右达到小高峰。

嗯，非常符合大家“醒了看电影，看完吃饭，吃了再看，看了再睡‘的“节假日生活作息”。

2.评分情况

在这里插入图片描述

按照我爬取的数据我们看到超过一半（52.37%）的观众给这部电影打了满分10分，极少量用户评分在6分以下（仅占7.58%）。根据我爬取的数据，计算所得平均分是8.725，和实时显示的分数8.8相差不大。

在这里插入图片描述

除了从宏观角度看评分，我们来瞧瞧评论者性别和评论时间与最终评分有什么不能说的秘密？

在这里插入图片描述

性别的不同并没有造成评分很大的区别，男观众和女观众的评分平均分仅仅相差0.35分，“未知性别”人群的评分在两者之间，基本等于男性评分8.53和女性评分8.88的的平均值（8.71）。嗯，我很有理由怀疑“未知人群”中男女比例也各占一半！

在这里插入图片描述

从评分时间和评分的关系来看，低分一般出现在0点到7点之间，我猜吧，大概是在这种夜深人静的时候，大家的情绪容易有大起大落，白天看完电影时的兴奋已经退去，留下的只有深深的思考，或许还带点批判性，吧。

3.评论内容

先看看点赞数最高的5条评论。

在这里插入图片描述

我们发现前5条评论评分均为10分：其中第一条，emmm，与电影无关，暂时跳过……其他几条都是赞美韩寒、沈腾和黄景瑜的。

那通过词云具体看一下评论内容：

在这里插入图片描述

不成熟的代码

 1 from bs4 import BeautifulSoup
 2 import requests
 3 import warnings
 4 import re
 5 from datetime import datetime
 6 import json
 7 import random
 8 import time
 9 import datetime
10 
11 headers = {
12     'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1',
13     'Connection':'keep-alive'}
14 cookies={'cookie':'_lxsdk_cuid=168c325f322c8-0156d0257eb33d-10326653-13c680-168c325f323c8; uuid_n_v=v1; iuuid=30E9F9E02A1911E9947B6716B6E91453A6754AA9248F40F39FBA1FD0A2AD9B42; webp=true; ci=191%2C%E5%8F%B0%E5%B7%9E; _lx_utm=utm_source%3DBaidu%26utm_medium%3Dorganic; __mta=49658649.1549462270794.1549465778684.1549548206227.3; _lxsdk=30E9F9E02A1911E9947B6716B6E91453A6754AA9248F40F39FBA1FD0A2AD9B42; _lxsdk_s=168c898414e-035-f0e-e6%7C%7C463'}
15 
16 #url设置offset偏移量为0
17 url = 'http://m.maoyan.com/review/v2/comments.json?movieId=1218091&userId=-1&offset=0&limit=15&ts={}&type=3'
18 
19 comment=[]
20 nick=[]
21 score=[]
22 comment_time=[]
23 gender=[]
24 userlevel=[]
25 userid=[]
26 upcount=[]
27 replycount=[]
28 ji=1
29 
30 
31 url_time=url_time=int(time.time())*1000#获取当前时间（单位是毫秒，所以要✖️1000）
32 
33 for i in range(2000):
34     value=15*i
35     url_range=url.format(url_time)
36     res=requests.get(url_range,headers=headers,cookies=cookies,timeout=10)
37     res.encoding='utf-8'
38     print('正在爬取第'+str(ji)+'页')
39     content=json.loads(res.text,encoding='utf-8')
40     list_=content['data']['comments']
41     count=0
42     for item in list_:
43         comment.append(item['content'])
44         nick.append(item['nick'])
45         score.append(item['score'])    
46         comment_time.append(datetime.datetime.fromtimestamp(int(item['time']/1000)))
47         gender.append(item['gender'])
48         userlevel.append(item['userLevel'])
49         userid.append(item['userId'])
50         upcount.append(item['upCount'])
51         replycount.append(item['replyCount'])
52         count=count+1
53         if count==15:
54             url_time=item['time']
55     ji+=1
56     time.sleep(random.random())
57 print('爬取完成')
58 print(url_time)
59 result={'用户id':userid,'用户昵称':nick,'用户等级':userlevel,'性别':gender,'时间':comment_time,'评分':score,'评论内容':comment,'点赞':upcount,'评论':replycount}
60 results=pd.DataFrame(result)
61 results.info()
62 results.to_excel('猫眼_飞驰人生.xlsx')

posted @ 2019-11-28 15:56 有趣的Python 阅读(1619) 评论(0) 编辑收藏举报

刷新页面返回顶部

有趣的Python

Python爬取猫眼电影《飞驰人生》47858万条评论并对其进行数据分析

前言

数据爬取

数据清洗

数据分析

公告