小白°

2019年3月5日

摘要： redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. * 其一: 因为太多台机器上部署的scrapy会各自拥有各自的调度器,这样就是的多台机器无法分配start_url列表中的url.(多台机器无法共享同一个调度器) * 其二: 多台机器爬取到的数据无法通过同一阅读全文

posted @ 2019-03-05 14:30 小白° 阅读(300) 评论(0) 推荐(0) 编辑

网络爬虫之scrapy框架(CrawlSpider)

摘要：一.简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能之外,还派生了其自己独有的更强大的特性和功能.其中最显著的功能就是"LinkExtractors链接提取器".Spider是所有爬虫的基类,其设计原则是为了爬取start_url列表中网页,从而爬取到网页阅读全文

posted @ 2019-03-05 13:38 小白° 阅读(367) 评论(0) 推荐(0) 编辑

2019年3月4日

scrapy中selenium的应用

摘要：引子: 在通过scrapy框架进行某些网站数据爬取的时候,旺旺会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据,但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据.那么如果我们想要在scrapy也获取阅读全文

posted @ 2019-03-04 18:06 小白° 阅读(764) 评论(0) 推荐(0) 编辑

scrapy的UA池和代理池

摘要：一.下载中间件(Downloader Middlewares) 框架图如下下载中间件(Downloader Middlewares)位于scrapy引擎和下载器之间的一层组件. - 作用: (1)引擎的请求传递给下载器的过程中,下载中间件可以对请求进行一系列处理.比如设置请求的User-Agnet 阅读全文

posted @ 2019-03-04 17:41 小白° 阅读(946) 评论(0) 推荐(0) 编辑

scrapy框架的日志等级和请求传参

摘要：一.scrapy的日志等级 - 在使用scrapy crawl spiderFileName程序运行时,在终端里打印输出的就是scrapy的日志信息. - 日志种类: * ERROR : 一般错误 * WARNING : 警告 * INFO : 一般的信息 * DEBUG : 调试信息 - 设置日志阅读全文

posted @ 2019-03-04 17:23 小白° 阅读(269) 评论(0) 推荐(0) 编辑

scrapy框架之递归解析和post请求

摘要：一.递归爬取解析多页页面数据 - 需求: 将糗事百科所有页码的作者和段子内容数据进行爬取且持久化存储 - 需求分析: 每一个页面对应一个url,则scrapy工程需要对一个页面对应的url一次发起请求,然后通过对应的解析方法进行作者和段子内容的解析. 实现方案: 1.将每一个页码对应的url存放到爬阅读全文

posted @ 2019-03-04 15:44 小白° 阅读(459) 评论(0) 推荐(0) 编辑

2019年3月1日

scrapy 框架持久化存储

摘要： 1.基于终端的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表或字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 2.基于管道的持久化存储 scrapy框架中已经为我们专门集成好了高效,便捷,的持久化操作功能,我们直接使用即可.要想使用scrap 阅读全文

posted @ 2019-03-01 20:55 小白° 阅读(305) 评论(0) 推荐(0) 编辑

scrapy框架简介和基础应用(python爬虫)

摘要：一.什么是scrapy? scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍,所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,持久化等)的具有很强通用性的项目模板,对于框架学习,重点是要学习其框架的特性,各个功能的用法即可. 二.安装三.基阅读全文

posted @ 2019-03-01 18:07 小白° 阅读(292) 评论(0) 推荐(0) 编辑

移动端数据爬取

摘要： 1 什么是Fiddler? Fiddler是位于客户端和服务器端的HTTP代理，也是目前最常用的http抓包工具之一。它能够记录客户端和服务器之间的所有 HTTP请求，可以针对特定的HTTP请求，分析请求数据、设置断点、调试web应用、修改请求的数据，甚至可以修改服务器返回的数据，功能非常强大，阅读全文

posted @ 2019-03-01 17:55 小白° 阅读(381) 评论(0) 推荐(0) 编辑

python网络爬虫之图片链家在技术.seleninum和PhantonJS

摘要：一.什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据运行结果观察发现,我们可以获取图片的名称,但是链接获取的为空,检查后发现xpath表达式也没有问题,究其原因出现在哪里呢? 图片懒加载概念: 图片懒加载是一种网页优化技术.图片作为一种网络资源,在被阅读全文

posted @ 2019-03-01 17:46 小白° 阅读(622) 评论(0) 推荐(0) 编辑

公告