2017 年 11月 28 日随笔档案 - banji

2017年11月28日

Scrapy爬虫的基本流程

摘要：首先要知道爬取的网站是否需要登陆(如知乎, 只有登陆才能访问某些数据), 是否需要headers等. 之后就是根据自己的需要爬取自己需要解析的网页 start_request_url是第一个函数, 如果不重载, 默认迭代调用start_urls中的所有链接, 然后交给parse(默认)函数处理, 也阅读全文

posted @ 2017-11-28 19:49 banji 阅读(165) 评论(0) 推荐(0) 编辑

CrawlSpider源码分析

摘要： CrawlSpider是对Spider做了进一步的封装, 使得该类可以直接爬取一个网站.也就是说CrawlSpider是为了爬取整个网站设计的 CrawlSpider和Spider一样, 入口都是start_request, 如果想要模拟登陆, 可以重载这个函数, 然后callback自己定义的登陆阅读全文

posted @ 2017-11-28 15:14 banji 阅读(195) 评论(0) 推荐(0) 编辑

banji

Scrapy爬虫的基本流程

CrawlSpider源码分析

导航

公告