摘要: 一:基本概念 1:什么是分布式爬虫 --分布式爬虫,就是用多台电脑,同时运行一个爬虫文件。进行数据的爬去 2:原生的scrapy不能实现分布式爬取原因 --1:管道不能共享 --2:调度器不能共享 3:使用scrapy-redis组件进行分布式爬虫,scrapy-redis专门为scrapy开发的一 阅读全文
posted @ 2019-03-20 21:27 pyjar 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 1:url分发简介: 当客户端(不仅仅是浏览器)向服务器发送请求的时候,有如下几个: 协议:计算机的双方的通信规则 域名:我们知道要访问一个计算机,就必须知道要访问的计算机的ip地址。比如我们调试常用的 http://localhost:8000/ localhost 127.0.0.1就是ip地址 阅读全文
posted @ 2019-03-20 21:27 pyjar 阅读(107) 评论(0) 推荐(0) 编辑
摘要: 1:接触的爬虫模块 urllib ,request,selenium 2:robots协议:规定网页数据那些数据是否能爬去 --requests模块没有语法对该协议生效 --scrapy中有对该协议进行生效 3:如何解析验证码 --图片验证吗,可以用numpy模块对图片进行处理。 --文字验证码,可 阅读全文
posted @ 2019-03-20 21:26 pyjar 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 一:scrapy框架简介和基础使用 1:使用准备 a)概念:python开发的一个拥有高速、方便、强大等特点,用来爬取网站数据的框架。所谓的框架就是集成了相应的功能且具有很强通用性模板。 b)安装:linux,mac:pip install scrapy 2:使用流程 --工程创建: 打开终端输入 阅读全文
posted @ 2019-03-20 16:04 pyjar 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 一:scrapy核心组件的介绍 1: 引擎(scrapy):负责整个系统流程的数据处理,触发事物(核心) 2:调度器(scheduler):将需要爬取页面地址,放入队列中(url会自动去重),并在引擎再次请求返回 3:下载器(downloader):用于将下载的内容,返回给蜘蛛(scrapy 建立在 阅读全文
posted @ 2019-03-20 16:03 pyjar 阅读(160) 评论(0) 推荐(0) 编辑