摘要:在前面已经简单介绍了spider的基础用法,那么今天我们来详细了解一下Spider的具体用法。 一、Spider的运行流程 spider是scrapy框架中最核心的组件,其定义了爬取网站的逻辑和解析方式,而spider主要做两件事情: 定义爬取网站的动作。 分析爬取下来的网页。 那么他的运行流程主要
阅读全文
摘要:在scrapy框架前,相信大家或多或少的已经了解了一些网页数据解析方法,如:xpath、bs4、正则表达式等,但是在scrapy框架中也有一个内置的数据提取方法--Selector。在这里我们就先简单介绍一下Selector在scrapy中的运用及常用方法。 为了方便示例,我们以官方文档中的示例页面
阅读全文
摘要:在爬虫过程中,每次写一个爬虫程序时,都会从研究网页信息基本情况,所用到的库和方法。每次写基础代码时,都会略显繁琐。之前我也曾想过自己写一个基础的框架,从请求到响应再到解析和数据的保存。实现代码复用率,但发现其实并不用自己再造一遍轮子,因为市面上已经有了强大的异步框架--scrapy。我们只需要在此框
阅读全文
摘要:通过对数据的获取,我们已经掌握了一些简单的反爬措施,但是获取到的数据都是加密的,无法直接读取其中的信息。那么我们该怎么解决呢? 只有通过对加密字体的解密,再将解密字体和加密字体进行replace即可。现在,我们还是以实习僧为例,来看一下其中的解密流程是怎样的。 一、解密前的了解。 首先,观察到数据改
阅读全文
摘要:一、事件处理 JS 事件(event)是当用户与网页进行交互时发生的事情,例如单机某个链接或按钮、在文本框中输入文本、按下键盘上的某个按键、移动鼠标等等。当事件发生时,您可以使用 JavaScript 中的事件处理程序(也可称为事件监听器)来检测并执行某些特定的程序。 一般情况下事件的名称都是以单词
阅读全文
摘要:在各类网站采用了各种各样的反爬虫措施后,其中还有一种就是验证码反爬虫。那么如何将各种各样的验证码进行识别,自动化模拟人类操作验证码点击呢,那么今天我们就来聊一下。 在验证码反爬的类型中,主要有图形验证码(图形和数字随机组成)、点触验证码(词语或四字成语组成)和滑块验证码等。在如今,验证码类型逐渐复杂
阅读全文
摘要:JavaScript 与 HTML 和 CSS 共同构成了我们所看到的网页,其中: HTML 用来定义网页的内容,例如标题、正文、图像等; CSS 用来控制网页的外观,例如颜色、字体、背景等; JavaScript 用来实时更新网页中的内容,例如从服务器获取数据并更新到网页中,修改某些标签的样式或其
阅读全文
摘要:一、CSS介绍 CSS 的意思为 Cascading Style Sheets,中文名是层叠样式表。 CSS 是由大名鼎鼎的 W3C 中 CSS 工作组来发布以及维护 CSS 作用是修饰 HTML 和 XML 的标记语言 CSS 属于浏览器解释语言,它可以由浏览器直接执行,不用再进行编译 CSS 是
阅读全文
摘要:一、浏览器发展史 浏览器的主要功能就是向服务器发出请求,在浏览器窗口中展示HTML文档、PDF、图片、视频等网络内容,这些网络资源的位置由用户使用URL(统一资源定位符)来指定。 一个展示前端,一个未知的中间层连接着网络世界 甚至,网络世界也可以省略:一台显示器,一个神秘的幕后黑盒。 1、浏览器的诞
阅读全文
摘要:在使用爬虫过程中经常会遇到这样的情况,爬虫最初运行还可以,正常爬取数据,但一杯茶的功夫就会出现报错,比如返回403Forbidden,这时打开网页可能会发现数据为空,原来网页端的信息并未显示,或提示您的IP访问频率太高,又或者弹出一个验证码需要我们去识别,再者过了一会又可以正常访问。 出现上述现象的
阅读全文
摘要:一、HTTP协议 1、HTTP协议的定义 网络协议 网络协议是指计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或规则。 HTTP协议 HTTP协议(超文本传输协议)是一种网络通信协议,它允许将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器。默认端口:80 HTTPS协议
阅读全文
摘要:UA伪装 在爬虫过程中许多网站都会存在一些反爬措施,有些防护措施不高,像ua反爬这种只检查浏览器信息的防护措施。简单介绍一下 一、User-Agent简介 用户代理(User-Agent),表示的是用户的浏览器相关信息,该反爬逻辑是通过服务器端验证请求头中的 User-Agent 参数,然后区分是爬
阅读全文
摘要:网络编程基础(2) 一、UDP套接字的示例 1、udp简单示例 udp服务端 import socket ip_port = ('127.0.0.1', 9000) # 创建一个服务器的套接字 udp_server = socket.socket(socket.AF_INET,socket.SOCK
阅读全文
摘要:网络编程基础(1) 一、互联网的本质 硬件设备有了操作系统,然后装上软件之后,我们就能够正常使用了,然后也只能自己使用。如下图,每个人都有一台自己的机器,然而彼此孤立。 如何进行联机交互呢? 这就谈到了互联网的本质:简单来说,网络就是一种辅助双方或者多方连接在一起的工具。 二、使用网络的目的 就是为
阅读全文
摘要:观前提示,以下方法仅实践于本地服务端的连接测试。 在redis分布式运行后,需要对redis队列和指纹信息进行清除,但是,在打开RedisDesktopManager可视化工具进行连接时,发现总是连接失败,弹出以下提示。 在这个问题,看了许多博客,但最后的设置其实很简单,话不多说,解决方案如下: 打
阅读全文