随笔分类 - 爬虫
摘要:爬虫最新的库requests-html库总结requests-html是比较新的爬虫库,作者和requests是同一个作者 一.安装依赖 pip install requests-html 我们可以在安装的时候看到他安装了lxml,reuqests,bs4......我们常用的解析和爬取的库都分装在
阅读全文
摘要:一.升级yum [root@selenium ~]# yum update -y [root@selenium ~]# yum -y groupinstall "Development tools" [root@selenium ~]# yum install openssl-devel bzip2
阅读全文
摘要:爬取安逸花 https://vayh.msxf.com/ 时出现这种错误,总结如下: 1.https连接太多没有关闭导致的433,解决方法: import requests requests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数 s = requests.ses
阅读全文
摘要:问题: 对接接口,发现对方的接口使用form-data进行数据提交,直接使用requests库的data参数对接,会报参数错误: params = { 'timestamp':timestamp, 'nonce':nonce, 'apikey':APIKEY, 'signature': signat
阅读全文
摘要:在HTTP协议中,post提交的数据必须放在消息主体中,但是协议中并没有规定必须使用什么编码方式,从而导致了 提交方式 的不同。服务端根据请求头中的 Content-Type 字段来获知请求中的消息主体是用何种方式进行编码,再对消息主体进行解析。 具体的编码方式包括如下: - application
阅读全文
摘要:环境配置 Pycharm 专业版 Node.js 在爬虫遇到 JS 加密的时候,通用做法是对 JS 代码进行调试分析加密流程及方法 最终调试完需要将相关代码拿到本地,因为最终是在本地环境执行。这时候可能又会遇到各种参数未定义等报错 所以还需要在本地对 JS 进行调试,查漏补缺。那么我们是不是需要安装
阅读全文
摘要:一.简介 XML是由万维网联盟(W3C)创建的标记语言,被设计用来传输和存储数据,XML可以自行定义标签,具有自我描述性,其设计宗旨是传输数据,而非显示数据。Python自带XML模块,方便开发者解析XML数据。XML模块中包含了广泛使用的API接口 SAX和DOM等。另外,lxml解析库同样支持H
阅读全文
摘要:今天偷个懒写篇总结性的文章,我们在写爬虫,对网络抓包或逆向一些token参数时常常遇到一长串的字符,看到一长串不知其意义的字符串往往有点懵圈。如果你靠肉眼能从这一长串字符中看出一些特征或含义,那么会加快你写爬虫解析网络参数的步伐,也能给你提供分析思路。 这篇文章就是总结一下常见的字符串编码的格式和特
阅读全文
摘要:当用python3做爬虫的时候,一些网站为了防爬虫会设置一些检查机制,这时我们就需要添加请求头,伪装成浏览器正常访问。 header的内容在浏览器的开发者工具中便可看到,将这些信息添加到我们的爬虫代码中即可。 ‘Accept-Encoding’:是浏览器发给服务器,声明浏览器支持的编码类型。一般有g
阅读全文
摘要:1.查看本地请求的代理、 import requests res=requests.get('http://httpbin.org/ip', proxies={'http':'111.177.177.87:9999'}).json() 或者 2.https://httpbin.org/headers
阅读全文
摘要:一.当使用request模块请求的时候,requests首先会对url进行编码,可以通过抓包软件查看 import requests res = requests.get('https://www.baike.com/wiki/林俊杰',verify=False) print(res) print(
阅读全文
摘要:代码 from urllib.parse import quote,unquote,urlencode print(quote('https://www.cnblogs.com/?a=bc&d=f')) print(urlencode({'a':'b','b':'c'}))#https%3A//ww
阅读全文
摘要:scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 scrapy-redis组件 1. URL去
阅读全文
摘要:方法一: 1. 在项目文件夹中新建一个commands文件夹 2. 在command的文件夹中新建一个文件 crawlall.py 3.在crawlall.py 中写一个command类,该类继承 scrapy.commands from scrapy.commands import ScrapyC
阅读全文
摘要:https://github.com/MegatronKing/HttpCanary/tree/master/docs/v2/zh-CN
阅读全文
摘要:一.常规操作步骤 1. 手机要有root权限 2. 下载tcpdump http://www.strazzere.com/android/tcpdump 3. adb push c:\wherever_you_put\tcpdump /data/local/tcpdump 如果这一步真机无法push
阅读全文
摘要:获取自定义机器人webhook 步骤一,在机器人管理页面选择“自定义”机器人,输入机器人名字并选择要发送消息的群。如果需要的话,可以为机器人设置一个头像。点击“完成添加”,完成后会生成Hook地址,如下图: 步骤二,点击“复制”按钮,即可获得这个机器人对应的Webhook地址,其格式如下: 使用自定
阅读全文
摘要:一.安装步骤 1.安装xposed 2.安装inspect 二.inspect 一个基于Xposed 开发的应用动态分析工具 github已开源 内置web页面 体验度很不错 ‘ 核心功能 监控Shared Preferences 数据 绕过SSL 可以抓到https 以及使用HOOK 过滤出很多有
阅读全文
摘要:一、使用Python的第三方库 yagmail模块 发送邮件(本文以 QQ 邮箱示例) 1、通过Python的 yagmail模块发送邮件的前提: 开启SMTP服务、开通第三方授权(需要手机短信验证、QQ安全中心验证等) 2、在pycharm 中安装导入 yagmail模块 在pycharm的 Te
阅读全文
摘要:tesserocr 是 python 的一个 OCR 库,它是对 tesseract 做的一层 Python API 封装,所以他的核心是tesseract。 tesseract 的安装见 https://www.cnblogs.com/gl1573/p/9876397.html windows 下
阅读全文