摘要: 针对问题:如果想对某一个网站的全站数据进行爬取,该如何处理? 解决方案: 1. 手动请求的发送:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法) 2. CrawlSpider:基于CrawlSpider的自动爬取进行实现(更加简洁和高效) 一、Cra 阅读全文
posted @ 2018-12-06 13:41 休耕 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 一、Scrapy的日志等级 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。 1、日志等级(信息种类) ERROR:错误 WARNING:警告 INFO:一般信息 DEBUG:调试信息(默认) 2、设置日志信息指定输出 在sett 阅读全文
posted @ 2018-12-06 08:31 休耕 阅读(1124) 评论(0) 推荐(0) 编辑