摘要: 第三百三十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—Scrapy启动文件的配置—xpath表达式 我们自定义一个main.py来作为启动文件 main.py 爬虫文件 xpath表达式 1、 2、 3、 基本使用 allowed_domains设置爬虫起始域名start_urls设置 阅读全文
posted @ 2017-08-02 21:30 林贵秀 阅读(508) 评论(0) 推荐(0) 编辑
摘要: 第三百三十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—深度优先与广度优先原理 网站树形结构 深度优先 是从左到右深度进行爬取的,以深度为准则从左到右的执行(递归方式实现)Scrapy默认是深度优先的 广度优先 是以层级来执行的,(列队方式实现) 阅读全文
posted @ 2017-08-02 20:30 林贵秀 阅读(642) 评论(0) 推荐(0) 编辑