10 2023 档案
摘要:抓包工具 我们在处理一些网站的时候, 会遇到一些屏蔽F12, 以及只要按出浏览器的开发者工具就会关闭甚至死机的现象. 在遇到这类网站的时候. 我们可以使用抓包工具把页面上屏蔽开发者工具的代码给干掉. 一. Fiddler和Charles 这两款工具是非常优秀的抓包工具. 他们可以监听到我们计算机上所
阅读全文
摘要:PyExecJS模块 pyexecjs是一个可以帮助我们运行js代码的一个第三方模块. 其使用是非常容易上手的. 但是它的运行是要依赖能运行js的第三方环境的. 这里我们选择用node作为我们运行js的位置. 1.1 安装Nodejs 切记. 重启pycharm或者重启电脑. 1.2 安装pyexe
阅读全文
摘要:1. axios 由于jquery有严重的地狱回调逻辑. 再加上jquery的性能逐年跟不上市场节奏. 很多前端工程师采用axios来发送ajax. 相比jquery. axios更加灵活. 且容易使用. 更加美丽的是. 这玩意是用promise搞的. 所以更加贴合大前端的项目需求. 来吧. 上手试
阅读全文
摘要:JSONP 为了解决浏览器跨域问题. jquery提供了jsonp请求. 在网页端如果见到了服务器返回的数据是: xxxxxxxxxxdjsfkldasjfkldasjklfjadsklfjasdlkj({json数据}) 在Preview里面可以像看到json一样去调试 這就是jsonp。
阅读全文
摘要:selenium 一、前期准备 1、概述 selenium本身是一个自动化测试工具。它可以让python代码调用浏览器。并获取到浏览器中加载的各种资源。 我们可以利用selenium提供的各项功能。 帮助我们完成数据的抓取。 2、学习目标 掌握 selenium发送请求,加载网页的方法 掌握 sel
阅读全文
摘要:requests进阶 三、requests模块处理cookie相关的请求 1 爬虫中使用cookie 为了能够通过爬虫获取到登录后的页面,或者是解决通过cookie的反扒,需要使用request来处理cookie相关的请求 1.1 爬虫中使用cookie的利弊 带上cookie的好处 能够访问登录后
阅读全文
摘要:前情摘要 一、web请求全过程剖析 我们浏览器在输入完网址到我们看到网页的整体内容, 这个过程中究竟发生了些什么? BS --> browser/server 我们看一下一个浏览器请求的全过程 接下来就是一个比较重要的事情了. 所有的数据都在页面源代码里么? 非也~ 这里要介绍一个新的概念 那就是页
阅读全文
摘要:urllib与requests 一、urllib的学习 学习目标 了解urllib的基本使用 1、urllib介绍 除了requests模块可以发送请求之外, urllib模块也可以实现请求的发送,只是操作方法略有不同! urllib在python中分为urllib和urllib2,在python3
阅读全文
摘要:数据解析之XPATH 1、xpath安装与使用 安装 安装lxml库 pip install lxml -i pip源 2、解析流程与使用 解析流程 实例化一个etree的对象,把即将被解析的页面源码加载到该对象 调用该对象的xpath方法结合着不同形式的xpath表达进行标签定位和数据提取 使用
阅读全文
摘要:一、BeautifulSoup的简单使用 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。 它是一个工具箱,通过解析文档为用户提供需要抓取
阅读全文
摘要:数据解析之re正则表达式 1. 正则基础 1.1 为什么使用正则 需求 判断一个字符串是否是手机号 解决 编写一个函数,给函数一个字符串,如果是手机号则返回True,否则返回False 代码 def isPhone(phone): # 长度为11 # 全部都是数字字符 # 以1开头 pass if
阅读全文
摘要:python基础内容 ## 1. 关于爬虫的特殊性 爬虫是一个很蛋疼的东西, 可能今天讲解的案例. 明天就失效了. 所以, 不要死盯着一个网站干. 要学会见招拆招(爬虫的灵魂) 爬虫程序如果编写的不够完善. 访问频率过高. 很有可能会对服务器造成毁灭性打击, 所以, 不要死盯着一个网站干. 请放慢你
阅读全文
摘要:1. 常见的反爬虫和应对方法? 1. 基于身份识别进行反爬 (1) 用户请求的headers - headers知识补充: - host:提供了主机名及端口号 - Referer 提供给服务器客户端从那个页面链接过来的信息(有些网站会据此来反爬) - Origin:Origin字段里只包含是谁发起的
阅读全文
摘要:1. 对称加密 所谓对称加密就是加密和解密用的是同一个秘钥. 也称为共享密钥加密算法,是一种将明文加密成密文的加密算法。其特点是加密和解密使用相同的密钥,也就是说,密钥是公开的,双方通过协商得到同一个密钥,然后使用该密钥对明文进行加密和解密操作。 对称加密算法的优点是算法简单、加密解密速度快,适合对
阅读全文
摘要:1. URLEncode和Base64 在我们访问一个url的时候总能看到这样的一种url https://www.sogou.com/web?query=%E5%90%83%E9%A5%AD%E7%9D%A1%E8%A7%89%E6%89%93%E8%B1%86%E8%B1%86&_asf=www
阅读全文
摘要:# MD5算法 在我们进行js逆向的时候. 总会遇见一些我们人类无法直接能理解的东西出现. 此时你看到的大多数是被加密过的密文. MD5是一个非常常见的摘要(hash)逻辑. 其特点就是小巧. 速度快. 极难被破解. 所以, md5依然是国内非常多的互联网公司选择的密码摘要算法. 1. 这玩意不可逆
阅读全文