摘要: Scrapy从开始链接抓取数据,然后通过下一页链接不停的抓取更多的数据。 那么如何获取下一页链接呢,常见有两种方式: 1、通过当前页面的“下一页”链接获取,例如: 此时获取的链接一般是相对url,需要将相对url转为绝对url,方法如下: 2、抓取数据的url有一定的规律,例如: http://ww 阅读全文
posted @ 2018-01-22 17:03 sam11 阅读(4973) 评论(0) 推荐(0) 编辑
摘要: pipelines.py中有方法如下 def process_item(self, item, spider): 通过item参数,可以针对不同的Item进行处理,例如: if isinstance(item, AAItem): ...... elif isinstance(item, BBItem 阅读全文
posted @ 2018-01-22 16:19 sam11 阅读(1945) 评论(0) 推荐(0) 编辑