爬虫 - 随笔分类(第2页) - 阿布_alone

爬虫最新的库requests-html库总结

摘要：爬虫最新的库requests-html库总结requests-html是比较新的爬虫库,作者和requests是同一个作者一.安装依赖 pip install requests-html 我们可以在安装的时候看到他安装了lxml,reuqests,bs4......我们常用的解析和爬取的库都分装在阅读全文

posted @ 2021-11-27 23:38 阿布_alone 阅读(1104) 评论(0) 推荐(0) 编辑

linux下启动selenium-爬虫并安装谷歌浏览器和驱动

摘要：一.升级yum [root@selenium ~]# yum update -y [root@selenium ~]# yum -y groupinstall "Development tools" [root@selenium ~]# yum install openssl-devel bzip2 阅读全文

posted @ 2021-11-27 23:33 阿布_alone 阅读(355) 评论(0) 推荐(0) 编辑

python爬虫关于Max retries exceeded with url 的错误

摘要：爬取安逸花 https://vayh.msxf.com/ 时出现这种错误，总结如下： 1.https连接太多没有关闭导致的433，解决方法： import requests requests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数 s = requests.ses 阅读全文

posted @ 2021-11-27 22:04 阿布_alone 阅读(950) 评论(0) 推荐(0) 编辑

requests提交form表单

摘要：问题：对接接口，发现对方的接口使用form-data进行数据提交，直接使用requests库的data参数对接，会报参数错误： params = { 'timestamp':timestamp, 'nonce':nonce, 'apikey':APIKEY, 'signature': signat 阅读全文

posted @ 2021-09-25 10:01 阿布_alone 阅读(1887) 评论(0) 推荐(0) 编辑

requests模块发送POST请求

摘要：在HTTP协议中，post提交的数据必须放在消息主体中，但是协议中并没有规定必须使用什么编码方式，从而导致了提交方式的不同。服务端根据请求头中的 Content-Type 字段来获知请求中的消息主体是用何种方式进行编码，再对消息主体进行解析。具体的编码方式包括如下： - application 阅读全文

posted @ 2021-09-25 09:38 阿布_alone 阅读(400) 评论(0) 推荐(0) 编辑

爬虫|如何在Pycharm中调试JS代码

摘要：环境配置 Pycharm 专业版 Node.js 在爬虫遇到 JS 加密的时候，通用做法是对 JS 代码进行调试分析加密流程及方法最终调试完需要将相关代码拿到本地，因为最终是在本地环境执行。这时候可能又会遇到各种参数未定义等报错所以还需要在本地对 JS 进行调试，查漏补缺。那么我们是不是需要安装阅读全文

posted @ 2021-01-10 17:55 阿布_alone 阅读(4949) 评论(0) 推荐(0) 编辑

使用lxml解析xml文件

摘要：一.简介 XML是由万维网联盟（W3C）创建的标记语言，被设计用来传输和存储数据，XML可以自行定义标签，具有自我描述性，其设计宗旨是传输数据，而非显示数据。Python自带XML模块，方便开发者解析XML数据。XML模块中包含了广泛使用的API接口 SAX和DOM等。另外，lxml解析库同样支持H 阅读全文

posted @ 2020-11-29 23:27 阿布_alone 阅读(5965) 评论(0) 推荐(0) 编辑

爬虫会遇到常见编码问题

摘要：今天偷个懒写篇总结性的文章，我们在写爬虫，对网络抓包或逆向一些token参数时常常遇到一长串的字符，看到一长串不知其意义的字符串往往有点懵圈。如果你靠肉眼能从这一长串字符中看出一些特征或含义，那么会加快你写爬虫解析网络参数的步伐，也能给你提供分析思路。这篇文章就是总结一下常见的字符串编码的格式和特阅读全文

posted @ 2020-11-01 23:18 阿布_alone 阅读(815) 评论(0) 推荐(0) 编辑

python3爬虫中文乱码之请求头‘Accept-Encoding’：br 的问题

摘要：当用python3做爬虫的时候，一些网站为了防爬虫会设置一些检查机制，这时我们就需要添加请求头，伪装成浏览器正常访问。 header的内容在浏览器的开发者工具中便可看到，将这些信息添加到我们的爬虫代码中即可。 ‘Accept-Encoding’：是浏览器发给服务器,声明浏览器支持的编码类型。一般有g 阅读全文

posted @ 2020-11-01 23:03 阿布_alone 阅读(923) 评论(0) 推荐(0) 编辑

在爬虫工作中使用到的一个测试网站和一个快速把请求转换成为代码的网站

摘要：1.查看本地请求的代理、 import requests res=requests.get('http://httpbin.org/ip', proxies={'http':'111.177.177.87:9999'}).json() 或者 2.https://httpbin.org/headers 阅读全文

posted @ 2020-09-13 21:34 阿布_alone 阅读(360) 评论(1) 推荐(0) 编辑

requests模块爬取会对默认的url进行编码

摘要：一.当使用request模块请求的时候，requests首先会对url进行编码，可以通过抓包软件查看 import requests res = requests.get('https://www.baike.com/wiki/林俊杰',verify=False) print(res) print( 阅读全文

posted @ 2020-05-17 23:58 阿布_alone 阅读(2688) 评论(0) 推荐(0) 编辑

url编解码

摘要：代码 from urllib.parse import quote,unquote,urlencode print(quote('https://www.cnblogs.com/?a=bc&d=f')) print(urlencode({'a':'b','b':'c'}))#https%3A//ww 阅读全文

posted @ 2020-04-02 00:14 阿布_alone 阅读(298) 评论(0) 推荐(0) 编辑

scrapy-redis使用以及剖析(转)

摘要：scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能： scheduler - 调度器 dupefilter - URL去重规则（被调度器使用） pipeline - 数据持久化 scrapy-redis组件 1. URL去阅读全文

posted @ 2019-10-27 22:44 阿布_alone 阅读(426) 评论(0) 推荐(0) 编辑

Scrapy同时启动多个爬虫以及在pycharm中debug

摘要：方法一： 1. 在项目文件夹中新建一个commands文件夹 2. 在command的文件夹中新建一个文件 crawlall.py 3.在crawlall.py 中写一个command类，该类继承 scrapy.commands from scrapy.commands import ScrapyC 阅读全文

posted @ 2019-08-21 23:04 阿布_alone 阅读(646) 评论(0) 推荐(0) 编辑

HttpCanary（手机端强大的抓包工具）

摘要：https://github.com/MegatronKing/HttpCanary/tree/master/docs/v2/zh-CN 阅读全文

posted @ 2019-08-09 17:40 阿布_alone 阅读(5603) 评论(0) 推荐(0) 编辑

安卓手机tcpdump的使用

摘要：一.常规操作步骤 1. 手机要有root权限 2. 下载tcpdump http://www.strazzere.com/android/tcpdump 3. adb push c:\wherever_you_put\tcpdump /data/local/tcpdump 如果这一步真机无法push 阅读全文

posted @ 2019-08-09 16:05 阿布_alone 阅读(3914) 评论(1) 推荐(0) 编辑

钉钉群机器人开发接口

摘要：获取自定义机器人webhook 步骤一，在机器人管理页面选择“自定义”机器人，输入机器人名字并选择要发送消息的群。如果需要的话，可以为机器人设置一个头像。点击“完成添加”，完成后会生成Hook地址，如下图：步骤二，点击“复制”按钮，即可获得这个机器人对应的Webhook地址，其格式如下：使用自定阅读全文

posted @ 2019-08-04 17:55 阿布_alone 阅读(50787) 评论(1) 推荐(6) 编辑

inspect的使用安卓动态分析工具

摘要：一.安装步骤 1.安装xposed 2.安装inspect 二.inspect 一个基于Xposed 开发的应用动态分析工具 github已开源内置web页面体验度很不错 ‘ 核心功能监控Shared Preferences 数据绕过SSL 可以抓到https 以及使用HOOK 过滤出很多有阅读全文

posted @ 2019-07-26 18:55 阿布_alone 阅读(1587) 评论(0) 推荐(0) 编辑

python发送邮件

摘要：一、使用Python的第三方库 yagmail模块发送邮件（本文以 QQ 邮箱示例） 1、通过Python的 yagmail模块发送邮件的前提：开启SMTP服务、开通第三方授权（需要手机短信验证、QQ安全中心验证等） 2、在pycharm 中安装导入 yagmail模块在pycharm的 Te 阅读全文

posted @ 2019-07-24 23:55 阿布_alone 阅读(1365) 评论(0) 推荐(0) 编辑

tersserorc的简单使用

摘要：tesserocr 是 python 的一个 OCR 库，它是对 tesseract 做的一层 Python API 封装，所以他的核心是tesseract。 tesseract 的安装见 https://www.cnblogs.com/gl1573/p/9876397.html windows 下阅读全文

posted @ 2019-05-21 11:08 阿布_alone 阅读(398) 评论(0) 推荐(0) 编辑

阿布alone

随笔分类 - 爬虫

公告