2018 年 1月 22 日随笔档案 - sam11

2018年1月22日

摘要： Scrapy从开始链接抓取数据，然后通过下一页链接不停的抓取更多的数据。那么如何获取下一页链接呢，常见有两种方式： 1、通过当前页面的“下一页”链接获取，例如：此时获取的链接一般是相对url，需要将相对url转为绝对url，方法如下： 2、抓取数据的url有一定的规律，例如： http://ww 阅读全文

posted @ 2018-01-22 17:03 sam11 阅读(4973) 评论(0) 推荐(0) 编辑

Scrapy中如何针对不同的Spider/Item分别进行处理

摘要： pipelines.py中有方法如下 def process_item(self, item, spider): 通过item参数，可以针对不同的Item进行处理，例如： if isinstance(item, AAItem): ...... elif isinstance(item, BBItem 阅读全文

posted @ 2018-01-22 16:19 sam11 阅读(1945) 评论(0) 推荐(0) 编辑

sam11

公告