爬虫实战:多线程+BS4+requests秒爬取猫眼电影前100
最近在自学爬虫,参考网上的教材学习了下,自己进行了优化,有不足的地方请各位指教。
完整源码github地址:https://github.com/JonathanRowe/Spider
首先我们先明确一下思路:
1.获取网页内容。
2.解析网页内容,过滤我们需要的数据。
3.保存为文本。
4.多线程运行以上123内容。
先引入一下我们会用到的模块
import requests
import pandas as pd
from bs4 import BeautifulSoup
from multiprocessing import Process
__author__ = 'Jonathan_Rowe'
我们要爬取的网页 https://maoyan.com/board/4
,下面定义一个爬取函数getUrl()
def getUrl(url):
try:
response = requests.get(url)
print('response=%s'%response) #just for testing
if response.status_code ==200:
return response.text
else:return None
except:return None
F12检查浏览器,发现我们要爬取的内容都在dl标签和dd标签下,dd标签都在dl标签下,于是我们直接用 find_all函数找到所有dd标签即可,再对dd内的index,title,actors,imd,time,score进行遍历。我们构建了一个全局变量exits对数据进行了是否存在的一个检测,第一次构建数据和append数据的方法是不一样的。
def filter(res):
try:
soup = BeautifulSoup(res,'html.parser') #only soup object has find_all function
dd = soup.find_all(name='dd') #get data block
for item in dd:
print('*************************************\n') #for testing and seperating
index = item.i.string
title = item.find(class_='name').string
actors = item.find(class_='star').string.strip()[3:]
img = item.find(class_='board-img')['data-src']
time = item.find(class_='releasetime').string[5:]
score =item.find(class_='integer').string+item.find(class_='fraction').string
# print('%s\n'%index,'%s\n'%title,'%s\n'%actors,'%s\n'%img,'%s\n'%time,'%s\n'%score) #just for testing
data = [[title,score,time,actors,img]] #create pandas dataframe
exits=0
if not exits:
df = pd.DataFrame(data,index=[index],columns=['title','score','time','actors','img_link'])
exits=1
else:
df.append(data)
yield df
except Exception as e:
print(type(e),e)
return None
return None
设置数据显示宽度,这个不用管,复制粘贴即可,只是为了防止数据都挤在一起看不清楚,
def showAll():
# expand dataframe lenth
pd.set_option('display.max_columns', 1000)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 1000)
return
保存为文件
def save(df):
df.to_csv('MaoYanMovieRank.csv',mode='a')
主要流程,一会我们会用多线程来启动它。
def main():
for i in range(0, 100, 10):
url = 'https://maoyan.com/board/4?offset=%s'%i
res = getUrl(url)
if type(res) != None:
dfg = filter(res)
for df in dfg:
print(df) #for testing
save(df)
这里就是主线程了,用来启动main函数,进行多线程爬取。
if __name__ == '__main__':
global exits,df
showAll()
p = Process(target=main)
p.start()
main()
基本上重要的部分都注释了 ,有什么不懂的或者改进建议可以在下面留言。
完整源码github地址:https://github.com/JonathanRowe/Spider