增量式爬虫
增量式爬虫
当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页数据的基础上更新一批数据,例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么,类似的情景,当我们在爬虫的过程中遇到时,我们是不是需要定时更新程序以便能爬取到网站中最近更新的数据呢?
增量式爬虫
- 概念:通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新出的新数据。
- 如何进行增量式的爬取工作:
- 在发送请求之前判断这个URL是不是之前爬取过
- 在解析内容后判断这部分内容是不是之前爬取过
- 写入存储介质时判断内容是不是已经在介质中存在
- 不难发现,其实增量爬取的核心是去重, 至于去重的操作在哪个步骤起作用,只能说各有利弊。在我看来,前两种思路需要根据实际情况取一个(也可能都用)。第一种思路适合不断有新页面出现的网站,比如说小说的新章节,每天的最新新闻等等;第二种思路则适合页面内容会更新的网站。第三个思路是相当于是最后的一道防线。这样做可以最大程度上达到去重的目的。
- 去重方法
- 将爬取过程中产生的url进行存储,存储在redis的set中。当下次进行数据爬取时,首先对即将要发起的请求对应的url在存储的url的set中做判断,如果存在则不进行请求,否则才进行请求。
- 对爬取到的网页内容进行唯一标识的制定,然后将该唯一表示存储至redis的set中。当下次爬取到网页数据的时候,在进行持久化存储之前,首先可以先判断该数据的唯一标识在redis的set中是否存在,在决定是否进行持久化存储。
案例
爬取4567tv网站中所有的电影详情数据
需求:爬取4567tv网站中所有的电影详情数据
spider
# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapy.http.response.html import HtmlResponse
from tv.items import TvItem
import redis
import hashlib
class MovieSpider(CrawlSpider):
name = 'movie'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://www.4567tv.tv/frim/index1.html']
rules = (
Rule(LinkExtractor(allow=r'/frim/index.*?html'), callback='parse', follow=True),
Rule(LinkExtractor(allow=r'/movie/.*?html'), callback='parse_item', follow=True),
)
# 创建redis链接对象
conn = redis.Redis(host='127.0.0.1', port=6379)
def parse_item(self, response: HtmlResponse):
title = response.xpath('//div[@class="stui-content__detail"]/h1/text()').extract_first()
director = response.xpath('//div[@class="stui-content__detail"]/p[3]/a/text()').extract()
director = ','.join(director)
item = TvItem()
item['title'] = title
item['director'] = director
self.logger.info(response.url, item)
# 根据网页内容进行去重
# 将解析到的数据值生成一个唯一的标识进行redis存储
source = item['title'] + item['director']
source_id = hashlib.sha256(source.encode()).hexdigest()
# 将解析内容的唯一表示存储到redis的data_id中
ex = self.conn.sadd('data_id', source_id)
if ex != 1:
# 该条数据已经爬取过了
self.logger.info('Duplicate removal: %s' % source_id)
return
yield item
item
import scrapy
class TvItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field()
director = scrapy.Field()
pipeline
class TvPipeline(object):
def process_item(self, item, spider):
# 这里没有做持久化存储
return item
middlewares
class RemovingDownloaderMiddleware(object):
def process_request(self, request: scrapy.Request, spider):
# 根据URL去重,如果已经爬过就不发请求
ex = spider.conn.sadd('urls', request.url)
if ex == 1:
return None
else:
raise IgnoreRequest(f'{request.url}')
def process_exception(self, request, exception, spider):
spider.logger.info('Duplicate removal: %s' % exception)
settings
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
ROBOTSTXT_OBEY = False
DOWNLOADER_MIDDLEWARES = {
'tv.middlewares.RemovingDownloaderMiddleware': 543,
}
LOG_LEVEL = 'INFO'