2019 年 3月 20 日随笔档案 - pyjar

2019年3月20日

摘要：一：基本概念 1:什么是分布式爬虫 --分布式爬虫，就是用多台电脑，同时运行一个爬虫文件。进行数据的爬去 2：原生的scrapy不能实现分布式爬取原因 --1：管道不能共享 --2:调度器不能共享 3:使用scrapy-redis组件进行分布式爬虫，scrapy-redis专门为scrapy开发的一阅读全文

posted @ 2019-03-20 21:27 pyjar 阅读(202) 评论(0) 推荐(0) 编辑

django之路由层

摘要： 1:url分发简介：当客户端（不仅仅是浏览器）向服务器发送请求的时候，有如下几个：协议：计算机的双方的通信规则域名：我们知道要访问一个计算机，就必须知道要访问的计算机的ip地址。比如我们调试常用的 http://localhost:8000/ localhost 127.0.0.1就是ip地址阅读全文

posted @ 2019-03-20 21:27 pyjar 阅读(107) 评论(0) 推荐(0) 编辑

爬虫学习总结

摘要： 1:接触的爬虫模块 urllib ,request,selenium 2:robots协议：规定网页数据那些数据是否能爬去 --requests模块没有语法对该协议生效 --scrapy中有对该协议进行生效 3:如何解析验证码 --图片验证吗，可以用numpy模块对图片进行处理。 --文字验证码，可阅读全文

posted @ 2019-03-20 21:26 pyjar 阅读(229) 评论(0) 推荐(0) 编辑

爬虫框架——scrapy(-)

摘要：一：scrapy框架简介和基础使用 1:使用准备 a)概念：python开发的一个拥有高速、方便、强大等特点，用来爬取网站数据的框架。所谓的框架就是集成了相应的功能且具有很强通用性模板。 b)安装：linux,mac:pip install scrapy 2:使用流程 --工程创建：打开终端输入阅读全文

posted @ 2019-03-20 16:04 pyjar 阅读(180) 评论(0) 推荐(0) 编辑

爬虫框架scrapy(二)

摘要：一：scrapy核心组件的介绍 1：引擎（scrapy）：负责整个系统流程的数据处理，触发事物（核心） 2：调度器(scheduler)：将需要爬取页面地址，放入队列中（url会自动去重），并在引擎再次请求返回 3：下载器（downloader）:用于将下载的内容，返回给蜘蛛（scrapy 建立在阅读全文

posted @ 2019-03-20 16:03 pyjar 阅读(160) 评论(0) 推荐(0) 编辑

pyjar

公告