2019 年 9月 16 日随笔档案 - BruceLong

2019年9月16日

摘要：背景：刚开始学习scrapy爬虫框架的时候，就在想如果我在服务器上执行一个爬虫任务的话，还说的过去。但是我不能每个爬虫任务就新建一个项目吧。例如我建立了一个知乎的爬行任务，但是我在这个爬行任务中，写了多个spider，重要的是我想让他们同时运行，怎么办？小白解决办法： 1、在spiders同目录阅读全文

posted @ 2019-09-16 11:38 BruceLong 阅读(1427) 评论(2) 推荐(0) 编辑

scrapy实战，使用内置的xpath，re和css提取值

摘要：以伯乐在线文章为爬取目标blog.jobbole.com，发现在"最新文章"选项中可看到所有文章一般来说，可以用scrapy中自带的xpath或者css来提取数据，定义在spiders/jobbole.py中的def parse(self, response) import scrapy clas 阅读全文

posted @ 2019-09-16 11:29 BruceLong 阅读(2083) 评论(0) 推荐(0) 编辑

brucelong

公告