随笔分类 - 爬虫知识

包含一些爬虫相关的知识

摘要：httpx库一、概述 1、简介 HTTPX 是 Python 3 的全功能 HTTP 客户端，它提供同步和异步 API，并支持 HTTP/1.1 和 HTTP/2。官方文档位置：https://www.python-httpx.org/ 该库的特性： HTTPX 建立在公认的可用性之上req 阅读全文

posted @ 2022-09-09 13:30 Kenny_LZK 阅读(3776) 评论(0) 推荐(0) 编辑

爬虫之验证码处理

摘要：验证码处理一、字符验证码通过某个程序，计算机产生一个字符串，一般四位，包含数字、字母、中文 1、难点噪点干扰线重叠颜色变形经过这么一些的操作之后，程序会生成一张图片，而我们要做的就是输入和图片里面的文本信息一致，才算通过校验 2、图像处理在数字世界中，有色彩模式这一算法，来表阅读全文

posted @ 2022-04-26 11:17 Kenny_LZK 阅读(219) 评论(0) 推荐(0) 编辑

Python中Scrapy框架

摘要：Scrapy 框架一、简介 1、介绍 Scrapy 是一个基于 Twisted 实现的异步处理爬虫框架，该框架使用纯 Python 语言编写。Scrapy 框架应用广泛，常用于数据采集、网络监测，以及自动化测试等 2、环境配置安装 pywin32 pip install pywin32 安阅读全文

posted @ 2022-04-15 13:58 Kenny_LZK 阅读(176) 评论(0) 推荐(0) 编辑

JS 常见加密

摘要：JS 常见的加密方式加密在前端开发和爬虫中是经常遇见的，掌握了加密算法且可以将加密的密文进行解密破解，是你从一个编程小白到大神级别质的飞跃。且加密算法的熟练和剖析也是有助于帮助我们实现高效的 JS 逆向常见的加密算法基本分为这几类：线性散列算法（签名算法）MD5 对称性加密算法 AES DES 阅读全文

posted @ 2022-03-06 14:57 Kenny_LZK 阅读(806) 评论(0) 推荐(0) 编辑

Python 爬虫高阶

摘要：‘ 爬虫高阶一、验证码识别 1、简介验证码和爬虫之间的爱恨情仇？反爬机制：验证码，识别验证码图片中的数据，用于登录验证识别验证码的操作：人工肉眼识别（不推荐）第三方自动识别打码平台：超级鹰 2、使用方法注册登录下载开发者文档：【http://www.chaojiying.c 阅读全文

posted @ 2022-03-02 21:48 Kenny_LZK 阅读(244) 评论(0) 推荐(0) 编辑

Python 中 selenium 库

摘要：selenium 基础语法一、环境配置 1、安装环境安装 selenium 第三方库 pip install selenium 下载浏览器驱动： Firefox浏览器驱动：geckodriver Chrome浏览器驱动：chromedriver , taobao备用地址 IE浏览器驱动：IE 阅读全文

posted @ 2022-02-28 22:18 Kenny_LZK 阅读(581) 评论(0) 推荐(0) 编辑

Python 爬虫基础

摘要：爬虫基础一、基本概念 1、简介 1.1 概念什么是爬虫？爬虫就是通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程爬虫的价值：抓取互联网上面的大量的数据，可以将这些数据商业化和商品化爬虫的合法性：爬虫在法律上是不被禁止的但是其具有违法风险善意爬虫——百度······ 阅读全文

posted @ 2022-02-28 13:26 Kenny_LZK 阅读(91) 评论(0) 推荐(0) 编辑

Python中requests库

摘要：requests库一、基本概念 1、简介 requests 模块是 python 基于 urllib，采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便，可以节约我们大量的工作，完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 阅读全文

posted @ 2022-02-28 12:49 Kenny_LZK 阅读(175) 评论(0) 推荐(0) 编辑

Python构建代理ip池

摘要：概述用爬虫时，大部分网站都有一定的反爬措施，有些网站会限制每个 IP 的访问速度或访问次数，超出了它的限制你的 IP 就会被封掉。对于访问速度的处理比较简单，只要间隔一段时间爬取一次就行了，避免频繁访问；而对于访问次数，就需要使用代理 IP 来帮忙了，使用多个代理 IP 轮换着去访问目标网址可以有阅读全文

posted @ 2022-01-18 09:45 Kenny_LZK 阅读(602) 评论(0) 推荐(0) 编辑

Python中bs解析

摘要：简介 Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据官方解释 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整阅读全文

posted @ 2022-01-14 21:43 Kenny_LZK 阅读(377) 评论(0) 推荐(0) 编辑

Python中xpath解析

摘要：简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。安装 pip install lxml 本文示例的html 阅读全文

posted @ 2022-01-14 19:38 Kenny_LZK 阅读(328) 评论(0) 推荐(0) 编辑