摘要: 背景: 刚开始学习scrapy爬虫框架的时候,就在想如果我在服务器上执行一个爬虫任务的话,还说的过去。但是我不能每个爬虫任务就新建一个项目吧。例如我建立了一个知乎的爬行任务,但是我在这个爬行任务中,写了多个spider,重要的是我想让他们同时运行,怎么办? 小白解决办法: 1、在spiders同目录 阅读全文
posted @ 2019-09-16 11:38 BruceLong 阅读(1427) 评论(2) 推荐(0) 编辑
摘要: 以伯乐在线文章为爬取目标blog.jobbole.com,发现在"最新文章"选项中可看到所有文章 一般来说,可以用scrapy中自带的xpath或者css来提取数据,定义在spiders/jobbole.py中的def parse(self, response) import scrapy clas 阅读全文
posted @ 2019-09-16 11:29 BruceLong 阅读(2083) 评论(0) 推荐(0) 编辑