随笔分类 - 爬虫
摘要:引入 相关的门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。 验证码处理 使用云打码平台识别验证码 云打码平台处理验证码的实现流程: - 1.对携带验证码的页面数据进行抓取 - 2.可以将页面数据中验证码进行解析,
阅读全文
摘要:- url是否爬过 - 数据是否爬过待更新。。。。。。。。。https://blog.csdn.net/yubei2155/article/details/79343893
阅读全文
摘要:1. 前言 对于一张网页,我们往往希望它是结构良好,内容清晰的,这样搜索引擎才能准确地认知它。而反过来,又有一些情景,我们不希望内容能被轻易获取,比方说电商网站的交易额,教育网站的题目等。因为这些内容,往往是一个产品的生命线,必须做到有效地保护。这就是爬虫与反爬虫这一话题的由来。 2. 常见反爬虫策
阅读全文
摘要:Scrapy-Redis 空跑问题,redis_key链接跑完后,自动关闭爬虫 问题: scrapy-redis框架中,reids存储的xxx:requests已经爬取完毕,但程序仍然一直运行,如何自动停止程序,结束空跑。 相信大家都很头疼,尤其是网上一堆搬来搬去的帖子,来看一下 我是如何解决这个问
阅读全文
摘要:scrapy-redis组件安装 分布式实现流程 scrapy-redis组件安装 - 下载scrapy-redis组件:pip install scrapy-redis - 更改redis配置文件: 注释该行:bind 127.0.0.1,表示可以让其他ip访问redis 将yes该为no:pro
阅读全文
摘要:UA池 代理池 selenium在Scrapy中的应用 UA池 - 下载中间件: - 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件。 - 作用: - 引擎将请求传递给下载器过程中, 下载中间件可以对请求进行一系列处理。比如设置请求的 User
阅读全文
摘要:CrawlSpider简介 CrawlSpider使用 CrawlSpider简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外, 还派生除了其自己独有的更加强大的特性和功能。 其中最显著的功能就是”LinkExtractors链接提取器“。 Spider
阅读全文
摘要:基于终端指令的持久化存储 基于管道的持久化存储 基于mysql的管道存储 基于redis的管道存储 基于终端指令的持久化存储 - 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作; - 执行输出指定格式进行存
阅读全文
摘要:日志等级 请求传参 提高scrapy的爬取效率 日志等级 - 日志信息: 使用命令:scrapy crawl 爬虫文件 运行程序时,在终端输出的就是日志信息; - 日志信息的种类: - ERROR:一般错误; - WARNING:警告; - INFO:一般的信息; - DEBUG: 调试信息; -
阅读全文
摘要:五大核心组件工作流程 post请求发送 递归爬取 五大核心组件工作流程 引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优
阅读全文
摘要:Scrapy简介 环境安装 基础命令 settings配置文件 Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架, 非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。 对于框架的学
阅读全文
摘要:前言 随着移动市场的火热,各大平台都陆陆续续的推出了自己的移动端APP来拉拢吸引和便捷其广大的用户。那么在移动端的平台当时势必会出现大量有价值的信息和数据,那这些数据我们是否可以去享用一下呢?那么接下来就进入我们的移动端APP数据的爬虫中来吧。 移动端数据爬取方式 fiddler简介 手机APP抓包
阅读全文
摘要:动态数据加载处理方式 图片懒加载 selenium phantomJs 谷歌无头浏览器 一.图片懒加载 什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding:utf-8 -*- impo
阅读全文
摘要:requests进阶内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 引入 有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: #!/
阅读全文
摘要:爬虫简介 requests模块 数据解析三大方法 selenium scrapy框架 处理验证码 移动端数据爬取 爬虫简介 - 什么是爬虫: 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 - 爬虫的分类: """ - 通用爬虫: 通用爬虫是搜索引擎(Baidu、Google
阅读全文
摘要:jupyter notebook环境安装 一、什么是Jupyter Notebook? 1. 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍 简而言之,Jupyter
阅读全文
摘要:一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方
阅读全文
摘要:详情请戳 爬虫基础介绍 爬虫基本流程 爬虫之Urllib库的基本使用 http和https协议 requests模块 requests模块进阶 数据解析 验证码处理 动态数据加载 移动端数据爬取 scrapy框架基础 scrapy持久化存储 scrapy递归解析和post请求 日志等级和请求传参 U
阅读全文
摘要:引入 相关的门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。 验证码处理 使用云打码平台识别验证码 云打码平台处理验证码的实现流程: 云打码平台处理验证码的实现流程: - 1.对携带验证码的页面数据进行抓取 - 2
阅读全文
摘要:引入 回顾requests实现数据爬取的流程 指定url 基于requests模块发起请求 获取响应对象中的数据 进行持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而
阅读全文