爬虫--scrapy之crawlspider

crawlspider和spider的区别

crawlspider创建爬虫文件的命令:
    scrapy genspider 爬虫文件名-t crawl www.xxx.com

spider创建爬虫文件的命令:
    scrapy genspider 爬虫文件名 www.xxx.com 
crawlspider可以直接进行全站数据爬取,
spider可以通过scrapy Request进行手动发起请求,进行全站数据爬取

crawlspider创建爬虫文件后,爬虫文件会出现Link链接提取器和Rule规则解析器

 
   rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )

将上面的分来来是(link是链接提取器,rules是规则解析器):

link = LinkExtractor(allow=r'Items/')  

rules = (
      Rule(link, callback='parse_item', follow=True),
  )

link链接提取器,allow后面跟的需要解析的rule,,是按正则规则来进行提取需要的链接

rules是规则解析器,callback是对数据进行解析的函数,follow是True的话是对数据进行深度爬取.

注意:
一个链接提取器对应唯一一个规则解析器

  

 

 

posted @ 2022-05-14 15:46  QV  阅读(33)  评论(0编辑  收藏  举报