爬虫综合大作业

作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159

可以用pandas读出之前保存的数据:

newsdf = pd.read_csv(r'F:\duym\gzccnews.csv')

 

一.把爬取的内容保存到数据库sqlite3

import sqlite3
with sqlite3.connect('gzccnewsdb.sqlite') as db:
newsdf.to_sql('gzccnews',con = db)

with sqlite3.connect('gzccnewsdb.sqlite') as db:
df2 = pd.read_sql_query('SELECT * FROM gzccnews',con=db)

 

保存到MySQL数据库

  • import pandas as pd
  • import pymysql
  • from sqlalchemy import create_engine
  • conInfo = "mysql+pymysql://user:passwd@host:port/gzccnews?charset=utf8"
  • engine = create_engine(conInfo,encoding='utf-8')
  • df = pd.DataFrame(allnews)
  • df.to_sql(name = ‘news', con = engine, if_exists = 'append', index = False)

 

蚁人2:黄蜂女现身》是由佩顿·里德执导,保罗·路德伊万杰琳·莉莉汉娜·乔恩-卡门迈克尔·道格拉斯米歇尔·菲佛迈克尔·佩纳等主演的科幻片。影片于2018年7月6日在美国上映,2018年8月24日在中国大陆上映。该片讲述蚁人斯科特在背负着蚁人职责的同时努力过好自己的生活,但二代黄蜂女霍普·凡·戴恩和汉克·皮姆博士又向他传达了一项紧迫的新任务。斯科特再次穿上战衣,与黄蜂女并肩作战的故事。

 

目标网址:https://movie.douban.com/subject/26636712/comments?status=P

 

打开豆瓣电影《蚁人2》的短评网页,右键检查或者按F12,然后选择用户名和评论就会显示出对应的代码部分

代码如下

爬短评

代码:

 

调用以上两个函数爬取数据,其实对于豆瓣上别的电影影评,估计稍微改一改也可以爬了

url = 'https://movie.douban.com/subject/26636712/comments?status=P'

result = getComment(url)

最终爬下来的数据大概是这样子

文本分析

 

描述统计分析

首先看一看拿到的样本中各星级评价的分布情况,None表示没有星级评价

整体来看,三星四星评价巨多,说明大家对于蚁人2整体评价还不错。

再来看看哪些短评大家最认可,投票数最多

 

情感分析

正面评价

 

 关键词

蚁人分词词云

 

posted on 2019-05-09 21:11  聂健凯012  阅读(172)  评论(0编辑  收藏  举报

导航