2019 年 3月 13 日随笔档案 - 薇薇前进

2019年3月13日

摘要： Scrapy Shell 我们想要在爬虫中使用xpath、beautifulsoup、正则表达式、css选择器等来提取想要的数据。但是因为scrapy是一个比较重的框架。每次运行起来都要等待一段时间。因此要去验证我们写的提取规则是否正确，是一个比较麻烦的事情。因此Scrapy提供了一个shell，用阅读全文

posted @ 2019-03-13 10:00 薇薇前进阅读(193) 评论(0) 推荐(0) 编辑

CrawlSpider爬虫

摘要： CrawlSpider 在上一个糗事百科的爬虫案例中。我们是自己在解析完整个页面后获取下一页的url，然后重新发送一个请求。有时候我们想要这样做，只要满足某个条件的url，都给我进行爬取。那么这时候我们就可以通过CrawlSpider来帮我们完成了。CrawlSpider继承自Spider，只不过是阅读全文

posted @ 2019-03-13 09:39 薇薇前进阅读(334) 评论(0) 推荐(0) 编辑

薇薇前进

公告