Scrapy爬虫的基本流程
摘要:
首先要知道爬取的网站是否需要登陆(如知乎, 只有登陆才能访问某些数据), 是否需要headers等. 之后就是根据自己的需要爬取自己需要解析的网页 start_request_url是第一个函数, 如果不重载, 默认迭代调用start_urls中的所有链接, 然后交给parse(默认)函数处理, 也 阅读全文
posted @ 2017-11-28 19:49 banji 阅读(165) 评论(0) 推荐(0) 编辑