爬虫大作业

作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075

本次作业爬取的是关于豆瓣电影的分类、影片等情况

导入本次作业所需要在包

import logging
import random
import string
import requests
import time
import pandas as pd
from bs4 import BeautifulSoup
from urllib import parse
from setting import User_Agents

 爬取在目标是把分类在电影一次性爬取然后进行分析

准备代码提取网页在属性:

detail['电影名'] = soup.find_all('span',property='v:itemreviewed')[0].text
            detail['影片详情链接'] = item
            detail['豆瓣评分'] = soup.select('.rating_num')[0].text
            detail['评价人数'] = soup.find_all('span',property='v:votes')[0].text
            detail['导演'] = soup.select('.attrs')[0].text
            detail['上映时间'] = soup.find_all('span',property='v:initialReleaseDate')[0].get('content')
            detail['五星比例'] = soup.select('.rating_per')[0].text
            detail['四星比例'] = soup.select('.rating_per')[1].text
            detail['三星比例'] = soup.select('.rating_per')[2].text
            detail['两星比例'] = soup.select('.rating_per')[3].text
            detail['一星比例'] = soup.select('.rating_per')[4].text
df.to_csv(r'D:\douban11.csv',encoding='utf-8-sig')

 保存成csv文件

爬取结果:

 

分析结果:

对爬取在电影评分平均值进行统计,情况大概如下:

所有爬取在此类电影口碑还是很不错在,四五星比较居高的。

 

爬取在此类电影电影中,拍摄影片次数在导演,生成词云如下图。

posted on 2019-04-28 21:48  冷冻  阅读(298)  评论(0编辑  收藏  举报

导航