爬虫综合大作业
作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159
可以用pandas读出之前保存的数据:
newsdf = pd.read_csv(r'F:\duym\gzccnews.csv')
一.把爬取的内容保存到数据库sqlite3
import sqlite3
with sqlite3.connect('gzccnewsdb.sqlite') as db:
newsdf.to_sql('gzccnews',con = db)
with sqlite3.connect('gzccnewsdb.sqlite') as db:
df2 = pd.read_sql_query('SELECT * FROM gzccnews',con=db)
保存到MySQL数据库
- import pandas as pd
- import pymysql
- from sqlalchemy import create_engine
- conInfo = "mysql+pymysql://user:passwd@host:port/gzccnews?charset=utf8"
- engine = create_engine(conInfo,encoding='utf-8')
- df = pd.DataFrame(allnews)
- df.to_sql(name = ‘news', con = engine, if_exists = 'append', index = False)
蚁人2:黄蜂女现身》是由佩顿·里德执导,保罗·路德、伊万杰琳·莉莉、汉娜·乔恩-卡门、迈克尔·道格拉斯、米歇尔·菲佛、迈克尔·佩纳等主演的科幻片。影片于2018年7月6日在美国上映,2018年8月24日在中国大陆上映。该片讲述蚁人斯科特在背负着蚁人职责的同时努力过好自己的生活,但二代黄蜂女霍普·凡·戴恩和汉克·皮姆博士又向他传达了一项紧迫的新任务。斯科特再次穿上战衣,与黄蜂女并肩作战的故事。
目标网址:https://movie.douban.com/subject/26636712/comments?status=P
打开豆瓣电影《蚁人2》的短评网页,右键检查或者按F12,然后选择用户名和评论就会显示出对应的代码部分
代码如下
爬短评
代码:
调用以上两个函数爬取数据,其实对于豆瓣上别的电影影评,估计稍微改一改也可以爬了
url = 'https://movie.douban.com/subject/26636712/comments?status=P'
result = getComment(url)
最终爬下来的数据大概是这样子
文本分析
描述统计分析
首先看一看拿到的样本中各星级评价的分布情况,None表示没有星级评价
整体来看,三星四星评价巨多,说明大家对于蚁人2整体评价还不错。
再来看看哪些短评大家最认可,投票数最多
情感分析
正面评价
关键词
蚁人分词词云