摘要: Scrapy Shell 我们想要在爬虫中使用xpath、beautifulsoup、正则表达式、css选择器等来提取想要的数据。但是因为scrapy是一个比较重的框架。每次运行起来都要等待一段时间。因此要去验证我们写的提取规则是否正确,是一个比较麻烦的事情。因此Scrapy提供了一个shell,用 阅读全文
posted @ 2019-03-13 10:00 薇薇前进 阅读(190) 评论(0) 推荐(0) 编辑
摘要: CrawlSpider 在上一个糗事百科的爬虫案例中。我们是自己在解析完整个页面后获取下一页的url,然后重新发送一个请求。有时候我们想要这样做,只要满足某个条件的url,都给我进行爬取。那么这时候我们就可以通过CrawlSpider来帮我们完成了。CrawlSpider继承自Spider,只不过是 阅读全文
posted @ 2019-03-13 09:39 薇薇前进 阅读(333) 评论(0) 推荐(0) 编辑