风-fmgao

导航

2018年12月19日

scrapy框架之分布式操作

摘要: 分布式概念 一.redis简单回顾 1.启动redis: mac/linux: redis-server redis.conf windows: redis-server.exe redis-windows.conf 2.对redis配置文件进行配置: - 注释该行:bind 127.0.0.1,表 阅读全文

posted @ 2018-12-19 11:19 风-fmgao 阅读(201) 评论(0) 推荐(0) 编辑

UA池和代理池在scrapy中的应用

摘要: 一.下载中间件 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件。 - 作用: (1)引擎将请求传递给下载器过程中, 下载中间件可以对请求进行一系列处理。比如设置请求的 User-Agent,设置代理等 (2)在下载器完成将Response传递给 阅读全文

posted @ 2018-12-19 11:16 风-fmgao 阅读(477) 评论(0) 推荐(0) 编辑

selenium在scrapy中的应用

摘要: 引入 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取 阅读全文

posted @ 2018-12-19 10:54 风-fmgao 阅读(342) 评论(0) 推荐(0) 编辑

scrapy框架之CrawlSpider操作

摘要: 提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。 一.简介 CrawlSpider其实 阅读全文

posted @ 2018-12-19 10:46 风-fmgao 阅读(226) 评论(0) 推荐(0) 编辑

scrapy框架之日志等级和请求传参-cookie-代理

摘要: 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。 - 日志信息的种类: ERROR : 一般错误 WARNING : 警告 INFO : 一般的信息 DEBUG : 调试信息 - 设置日志信息指定输 阅读全文

posted @ 2018-12-19 10:21 风-fmgao 阅读(273) 评论(0) 推荐(0) 编辑

scrapy框架之递归解析和post请求

摘要: 1.递归爬取解析多页页面数据 - 需求:将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储 - 需求分析:每一个页面对应一个url,则scrapy工程需要对每一个页码对应的url依次发起请求,然后通过对应的解析方法进行作者和段子内容的解析。 实现方案: 1.将每一个页码对应的url存放到爬虫 阅读全文

posted @ 2018-12-19 10:17 风-fmgao 阅读(452) 评论(0) 推荐(0) 编辑

scrapy框架之持久化操作

摘要: 1.基于终端指令的持久化存储 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。 2.基于管道的持久化存储 scrapy框架中已经为我们专门集成好了高效、便捷的持久化操作功能,我们直接使用即可。要想使用scr 阅读全文

posted @ 2018-12-19 10:10 风-fmgao 阅读(678) 评论(0) 推荐(0) 编辑

scrapy框架简介和基础应用

摘要: 一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 二.安装 阅读全文

posted @ 2018-12-19 10:03 风-fmgao 阅读(126) 评论(0) 推荐(0) 编辑

selenuim和phantonJs处理网页动态加载数据的爬取

摘要: 一.图片懒加载 什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 - 运行结果观察发现,我们可以获取图片的名称,但是链接获取的为空,检查后发现xpath表达式也没有问题,究其原因出在了哪里呢? 图片懒加载概念: 图片懒加载是一种网页优化技术。图片作为一 阅读全文

posted @ 2018-12-19 09:55 风-fmgao 阅读(265) 评论(0) 推荐(0) 编辑

requests模块的cookie和代理操作

摘要: 一.基于requests模块的cookie操作 引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的, 例如: - 结果发现,写入到文件中的数据,不是张三个人页面的数据,而是人人网登陆 阅读全文

posted @ 2018-12-19 09:47 风-fmgao 阅读(712) 评论(0) 推荐(0) 编辑

三种数据解析方式学习

摘要: 引言:回顾requests实现数据爬取的流程 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据。因此,本次课程中会给大家详细介绍讲解三种聚焦爬虫中的数据解析方式 阅读全文

posted @ 2018-12-19 09:36 风-fmgao 阅读(367) 评论(0) 推荐(0) 编辑

requests模块学习

摘要: - 基于如下5点展开requests模块的学习 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 为什么要使用requests模块 因为在使用urllib模块的时候 阅读全文

posted @ 2018-12-19 09:14 风-fmgao 阅读(641) 评论(0) 推荐(0) 编辑

urllib模块学习

摘要: 一.urllib库 概念:urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 使用流程: 指定url 基于u 阅读全文

posted @ 2018-12-19 08:27 风-fmgao 阅读(220) 评论(0) 推荐(0) 编辑

爬虫介绍

摘要: python网络爬虫的简单介绍 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。哪些语言可以实现爬虫 1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多进程方面做的不好。 2.j 阅读全文

posted @ 2018-12-19 08:17 风-fmgao 阅读(284) 评论(0) 推荐(0) 编辑