爬虫--scrapy之crawlspider
crawlspider和spider的区别
crawlspider创建爬虫文件的命令: scrapy genspider 爬虫文件名-t crawl www.xxx.com spider创建爬虫文件的命令: scrapy genspider 爬虫文件名 www.xxx.com
crawlspider可以直接进行全站数据爬取,
spider可以通过scrapy Request进行手动发起请求,进行全站数据爬取
crawlspider创建爬虫文件后,爬虫文件会出现Link链接提取器和Rule规则解析器
rules = ( Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True), ) 将上面的分来来是(link是链接提取器,rules是规则解析器): link = LinkExtractor(allow=r'Items/') rules = ( Rule(link, callback='parse_item', follow=True), ) link链接提取器,allow后面跟的需要解析的rule,,是按正则规则来进行提取需要的链接 rules是规则解析器,callback是对数据进行解析的函数,follow是True的话是对数据进行深度爬取. 注意: 一个链接提取器对应唯一一个规则解析器