打赏

python爬虫scrapy项目模块简单分析

scrapy项目模块简单分析

 

1.__init__配置初始化,比如配置数据库

 

 

 

 2.Items定义数据结构

 

 

3.Spider-编写爬虫程序(名称、域名、从哪个url开始爬取数据)

 

scrapy.Request(job_url.extract(), self.parse_detail)

写回调函数,当你有了url时,回调parse_detail;

 

4.编写parse函数,爬取数据

parse函数,用yield返回request/ item.

request进入到队列里面重新进行爬虫循环;

item丢到pipeline处理。

 

posted on 2018-12-04 16:12  XuCodeX  阅读(232)  评论(0编辑  收藏  举报

导航