python2.7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库

python2.7爬取豆瓣电影top250并分别写入到TXT，Excel，MySQL数据库

1.任务

爬取豆瓣电影top250
以txt文件保存
以Excel文档保存
将数据录入数据库

2.分析

电影中文名的采集可以查看：http://www.cnblogs.com/carpenterworm/p/6026274.html

电影链接采集：

可以看到电影链接放在<a class="" href=" ">中，因此可以用re.compile(r'<a class="" href="(.*)">')进行匹配。

如果re.compile(r'<a class="" href="https://movie.douban.com/subject/(.*)/">')进行匹配，得到的结果就是诸如：1292052这样的数字，而不是链接了。

3.程序

总的来说，程序比较简单，这里不再说明，直接上程序。

#!/usr/bin/python
# -*- coding: utf-8 -*- #
import requests,sys,re,openpyxl,MySQLdb,time
from bs4 import BeautifulSoup

reload(sys)
sys.setdefaultencoding('utf-8')
print '正在从豆瓣电影Top250抓取数据......'
# --------------------------创建列表用于存放数据-----------------------------#
nameList=[]
linkList=[]

#---------------------------------爬取模块------------------------------------#
def topMovie():
    for page in range(10):
        url='https://movie.douban.com/top250?start='+str(page*25)
        print '正在爬取第---'+str(page+1)+'---页......'
        html=requests.get(url)
        html.raise_for_status()
        try:
            soup=BeautifulSoup(html.text,'html.parser')
            soup=str(soup) # 利用正则表达式需要将网页文本转换成字符串
            name=re.compile(r'<span class="title">(.*)</span>')
            links=re.compile(r'<a class="" href="(.*)">')
            movieNames=re.findall(name,soup)
            movieLinks=re.findall(links,soup)
            for name in movieNames:
                if name.find('/')==-1: # 剔除英文名(英文名特征是含有'/')
                    nameList.append(name)
            for link in movieLinks:
                linkList.append(link)
        except Exception as e:
            print e
    print '爬取完毕！'
    return nameList,linkList

# ---------------------------------储存为文本文件-----------------------------------#
def save_to_txt():
    print 'txt文件存储中......'
    try:
        f=open('data.txt','w')
        for i in range(250):
            f.write(nameList[i])
            f.write('\t'*3)
            f.write(linkList[i])
            f.write('\n')
        f.close()
    except Exception as e:
        print e
    print 'txt文件存储结束！'

# ---------------------------------储存为excel文件-----------------------------------#
def save_to_Excel():
    print 'Excel文件存储中......'
    try:
        wb=openpyxl.Workbook()
        sheet=wb.get_active_sheet()
        sheet.title='Movie Top 250'
        for i in range(1,251):
            one='a'+str(i)
            two='b'+str(i)
            sheet[one]=nameList[i-1]
            sheet[two]=linkList[i-1]
        wb.save(ur'豆瓣电影Top250.xlsx') # 保证文件名为中文
    except Exception as e:
        print e
    print 'Excel文件存储结束！'

# ---------------------------------储存到文数据库-----------------------------------#
def save_to_MySQL():
    print 'MySQL数据库存储中......'
    try:
        conn = MySQLdb.connect(host="127.0.0.1", user="root", passwd="******", db="test", charset="utf8")
        cursor = conn.cursor()
        print "数据库连接成功"
        cursor.execute('Drop table if EXISTS MovieTop250') # 如果表存在就删除
        time.sleep(3)
        cursor.execute('''create table if not EXISTS MovieTop250(
                           movieName VARCHAR (200),
                           link VARCHAR (200))''')
        for i in range(250):
            sql='insert into MovieTop250(movieName,link) VALUES (%s,%s)'
            param=(nameList[i],linkList[i])
            cursor.execute(sql,param)
            conn.commit()
        cursor.close()
        conn.close()
    except Exception as e:
        print e
    print 'MySQL数据库存储结束！'

# -------------------------------------主模块--------------------------------------#
if __name__=="__main__":
    try:
        topMovie()
        save_to_txt()
        save_to_Excel()
        save_to_MySQL()
    except Exception as e:
        print e

posted @ 2016-11-04 10:11 我是毛毛虫阅读(2970) 评论(0) 编辑收藏举报

刷新页面返回顶部

我是毛毛虫

python2.7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库

python2.7爬取豆瓣电影top250并分别写入到TXT，Excel，MySQL数据库

1.任务

爬取豆瓣电影top250

以txt文件保存

以Excel文档保存

将数据录入数据库

2.分析

电影中文名的采集可以查看：http://www.cnblogs.com/carpenterworm/p/6026274.html

电影链接采集：

3.程序

总的来说，程序比较简单，这里不再说明，直接上程序。

公告