爬虫实战:多线程+BS4+requests秒爬取猫眼电影前100

最近在自学爬虫,参考网上的教材学习了下,自己进行了优化,有不足的地方请各位指教。

完整源码github地址:https://github.com/JonathanRowe/Spider

首先我们先明确一下思路:
1.获取网页内容。
2.解析网页内容,过滤我们需要的数据。
3.保存为文本。
4.多线程运行以上123内容。

先引入一下我们会用到的模块

import requests
import pandas as pd
from bs4 import BeautifulSoup
from multiprocessing import Process
__author__ =  'Jonathan_Rowe'

我们要爬取的网页 https://maoyan.com/board/4,下面定义一个爬取函数getUrl()

def getUrl(url):
    try:
        response = requests.get(url)
        print('response=%s'%response) #just for testing 
        if response.status_code ==200:
            return response.text
        else:return None
    except:return None

F12检查浏览器,发现我们要爬取的内容都在dl标签和dd标签下,dd标签都在dl标签下,于是我们直接用 find_all函数找到所有dd标签即可,再对dd内的index,title,actors,imd,time,score进行遍历。我们构建了一个全局变量exits对数据进行了是否存在的一个检测,第一次构建数据和append数据的方法是不一样的。

def filter(res):
    try:
        soup = BeautifulSoup(res,'html.parser')  #only soup object has find_all function
        dd = soup.find_all(name='dd')  #get data block

        for item in dd:
            print('*************************************\n') #for testing and seperating
            index = item.i.string
            title = item.find(class_='name').string
            actors = item.find(class_='star').string.strip()[3:]
            img = item.find(class_='board-img')['data-src']
            time = item.find(class_='releasetime').string[5:]
            score =item.find(class_='integer').string+item.find(class_='fraction').string
    #         print('%s\n'%index,'%s\n'%title,'%s\n'%actors,'%s\n'%img,'%s\n'%time,'%s\n'%score)  #just for testing
            data = [[title,score,time,actors,img]]  #create pandas dataframe
            exits=0
            if not exits:
                df = pd.DataFrame(data,index=[index],columns=['title','score','time','actors','img_link'])
                exits=1
            else:
                df.append(data)
            yield df  
    except Exception as e:
        print(type(e),e)
        return None

    return None
        

设置数据显示宽度,这个不用管,复制粘贴即可,只是为了防止数据都挤在一起看不清楚,

def showAll():
    # expand dataframe lenth
    pd.set_option('display.max_columns', 1000)
    pd.set_option('display.width', 1000)
    pd.set_option('display.max_colwidth', 1000)
    return

保存为文件

def save(df):
    df.to_csv('MaoYanMovieRank.csv',mode='a')

主要流程,一会我们会用多线程来启动它。

def main():
    for i in range(0, 100, 10):
            url = 'https://maoyan.com/board/4?offset=%s'%i
            res = getUrl(url)
            if type(res) != None:
                dfg = filter(res)
                for df in dfg:
                    print(df)   #for testing
                    save(df)

这里就是主线程了,用来启动main函数,进行多线程爬取。

if __name__ == '__main__':
    global exits,df
    showAll()
    p = Process(target=main)
    p.start()
    main()

基本上重要的部分都注释了 ,有什么不懂的或者改进建议可以在下面留言。

完整源码github地址:https://github.com/JonathanRowe/Spider

posted @ 2019-03-20 15:58  不会玩python  阅读(29)  评论(0编辑  收藏  举报