随笔分类 -  爬虫知识

包含一些爬虫相关的知识
摘要:httpx库 一、 概述 1、 简介 HTTPX 是 Python 3 的全功能 HTTP 客户端,它提供同步和异步 API,并支持 HTTP/1.1 和 HTTP/2。 官方文档位置:https://www.python-httpx.org/ 该库的特性: HTTPX 建立在公认的可用性之上req 阅读全文
posted @ 2022-09-09 13:30 Kenny_LZK 阅读(3776) 评论(0) 推荐(0) 编辑
摘要:验证码处理 一、 字符验证码 通过某个程序,计算机产生一个字符串,一般四位,包含数字、字母、中文 1、 难点 噪点 干扰线 重叠 颜色 变形 经过这么一些的操作之后,程序会生成一张图片,而我们要做的就是输入和图片里面的文本信息一致,才算通过校验 2、 图像处理 在数字世界中,有色彩模式这一算法,来表 阅读全文
posted @ 2022-04-26 11:17 Kenny_LZK 阅读(219) 评论(0) 推荐(0) 编辑
摘要:Scrapy 框架 一、 简介 1、 介绍 Scrapy 是一个基于 Twisted 实现的异步处理爬虫框架,该框架使用纯 Python 语言编写。Scrapy 框架应用广泛,常用于数据采集、网络监测,以及自动化测试等 2、 环境配置 安装 pywin32 pip install pywin32 安 阅读全文
posted @ 2022-04-15 13:58 Kenny_LZK 阅读(176) 评论(0) 推荐(0) 编辑
摘要:JS 常见的加密方式 加密在前端开发和爬虫中是经常遇见的,掌握了加密算法且可以将加密的密文进行解密破解,是你从一个编程小白到大神级别质的飞跃。且加密算法的熟练和剖析也是有助于帮助我们实现高效的 JS 逆向 常见的加密算法基本分为这几类: 线性散列算法(签名算法)MD5 对称性加密算法 AES DES 阅读全文
posted @ 2022-03-06 14:57 Kenny_LZK 阅读(806) 评论(0) 推荐(0) 编辑
摘要:‘ 爬虫高阶 一、 验证码识别 1、 简介 验证码和爬虫之间的爱恨情仇? 反爬机制:验证码,识别验证码图片中的数据,用于登录验证 识别验证码的操作: 人工肉眼识别(不推荐) 第三方自动识别 打码平台:超级鹰 2、 使用方法 注册 登录 下载开发者文档:【http://www.chaojiying.c 阅读全文
posted @ 2022-03-02 21:48 Kenny_LZK 阅读(244) 评论(0) 推荐(0) 编辑
摘要:selenium 基础语法 一、 环境配置 1、 安装环境 安装 selenium 第三方库 pip install selenium 下载浏览器驱动: Firefox浏览器驱动:geckodriver Chrome浏览器驱动:chromedriver , taobao备用地址 IE浏览器驱动:IE 阅读全文
posted @ 2022-02-28 22:18 Kenny_LZK 阅读(581) 评论(0) 推荐(0) 编辑
摘要:爬虫基础 一、 基本概念 1、 简介 1.1 概念 什么是爬虫? 爬虫就是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程 爬虫的价值: 抓取互联网上面的大量的数据,可以将这些数据商业化和商品化 爬虫的合法性: 爬虫在法律上是不被禁止的 但是其具有违法风险 善意爬虫——百度······ 阅读全文
posted @ 2022-02-28 13:26 Kenny_LZK 阅读(91) 评论(0) 推荐(0) 编辑
摘要:requests库 一、 基本概念 1、 简介 requests 模块是 python 基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 阅读全文
posted @ 2022-02-28 12:49 Kenny_LZK 阅读(175) 评论(0) 推荐(0) 编辑
摘要:概述 用爬虫时,大部分网站都有一定的反爬措施,有些网站会限制每个 IP 的访问速度或访问次数,超出了它的限制你的 IP 就会被封掉。对于访问速度的处理比较简单,只要间隔一段时间爬取一次就行了,避免频繁访问;而对于访问次数,就需要使用代理 IP 来帮忙了,使用多个代理 IP 轮换着去访问目标网址可以有 阅读全文
posted @ 2022-01-18 09:45 Kenny_LZK 阅读(602) 评论(0) 推荐(0) 编辑
摘要:简介 Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据 官方解释 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整 阅读全文
posted @ 2022-01-14 21:43 Kenny_LZK 阅读(377) 评论(0) 推荐(0) 编辑
摘要:简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 安装 pip install lxml 本文示例的html 阅读全文
posted @ 2022-01-14 19:38 Kenny_LZK 阅读(328) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示