Python 爬取猫眼电影最受期待榜

　主要爬取猫眼电影最受期待榜的电影排名、图片链接、名称、主演、上映时间。

　　思路：1.定义一个获取网页源代码的函数；

　　　　　2.定义一个解析网页源代码的函数；

　　　　　3.定义一个将解析的数据保存为本地文件的函数；

　　　　　4.定义主函数；

　　　　　5.使用多进程爬取。

步骤一：首先，导入相关的库：

import requests
import re
import  json
from multiprocessing import Pool
from requests.exceptions import RequestException

步骤二：定义获取网页源代码的函数，这里使用 requests.get() 方法来获取，并调用异常处理方法：

def get_one_page(url):
    response = requests.get(url)
    try:
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

步骤三：定义一个函数，利用正则表达式 re.findall() 等函数解析网页源代码，并利用 yield 生成器对解析的代码进行排布，转换为字典形式：

def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?">(\d+)</i>.*?data-src="(.*?)".*?</a>.*?'
                         + '<a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?</dd>', re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield {
            '排名': item[0],
            '图片': item[1],
            '名称': item[2],
            '主演': item[3].strip()[3:],
            '上映时间': item[4].strip()[5:]
        }

步骤四：定义主函数，爬取最受期待榜的 n 页：

def main(offset):
    url = 'https://maoyan.com/board/6?offset=' +str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_one_page(item)

步骤五：多进程爬取，定义进程池，并调用 Pool.map() 方法进行多进程爬取，提高爬取效率：

if __name__ == "__main__":
    pool = Pool()
    pool.map(main, [i*10 for i in range(10)])

爬取的部分数据如下：

posted @ 2017-08-13 20:48 希希里之海阅读(914) 评论(0) 收藏举报

刷新页面返回顶部

希希里之海

Java 小码农一枚，喜欢分享写作交流，欢迎关注我的个人公众号：希希里之海。

Python 爬取猫眼电影最受期待榜

公告