2022 年 5月 9 日随笔档案 - hai起奈

2022年5月9日

摘要： @retry装饰器requests请求失败并重复请求在爬虫代码的编写中，requests请求网页的时候常常请求失败或错误，一般的操作是各种判断状态和超时，需要多次重试请求，这种情况下，如果想优雅的实现功能，可以学习下retrying包下的retry装饰器的使用安装 pip install ret 阅读全文

posted @ 2022-05-09 22:28 hai起奈阅读(89) 评论(0) 推荐(0) 编辑

python 操作RabbitMq

摘要： python 操作RabbitMq 一、简介： RabbitMq 是实现了高级消息队列协议（AMQP）的开源消息代理中间件。消息队列是一种应用程序对应用程序的通行方式，应用程序通过写消息，将消息传递于队列，由另一应用程序读取完成通信。而作为中间件的 RabbitMq 无疑是目前最流行的消息队列之一阅读全文

posted @ 2022-05-09 22:26 hai起奈阅读(158) 评论(0) 推荐(0) 编辑

执行JS字符串

摘要：方法执行大型js时有点慢特殊编码的输入或输出参数会出现报错，解决方法：可以把输入或输出的参数用base64编码一下。base64都是英文和数字，没有特殊字符了 1--js2py pip insatll js2py # 获取执行JS的环境 context = js2py.EvalJs() # 加阅读全文

posted @ 2022-05-09 22:24 hai起奈阅读(397) 评论(0) 推荐(0) 编辑

测试代理

摘要：服务器测试 curl -x 你的代理ip 'https://api.ip.sb/ip' # 查出口地址 curl -x 你的代理ip 'https://www.instagram.com/' # 测试代理是否好用阅读全文

posted @ 2022-05-09 22:24 hai起奈阅读(52) 评论(0) 推荐(0) 编辑

useragent池

摘要： fake_useragent from fake_useragent import UserAgent fake_useragent ：只有250个ua 安装：pip install fake_useragent # 实力化 ua = UserAgent(verify_ssl=False) 参数：阅读全文

posted @ 2022-05-09 22:24 hai起奈阅读(86) 评论(0) 推荐(0) 编辑

使用Airtest超快速开发App爬虫

摘要：使用Airtest超快速开发App爬虫想开发网页爬虫，发现被反爬了？想对 App 抓包，发现数据被加密了？不要担心，使用 Airtest 开发 App 爬虫，只要人眼能看到，你就能抓到，最快只需要2分钟，兼容 Unity3D、Cocos2dx-*、Android 原生 App、iOS App、Wi 阅读全文

posted @ 2022-05-09 22:23 hai起奈阅读(315) 评论(0) 推荐(0) 编辑

scarpy爬虫框架

摘要：一、架构介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon 阅读全文

posted @ 2022-05-09 22:22 hai起奈阅读(125) 评论(0) 推荐(0) 编辑

scrapy版本爬取某网站，加入了ua池，ip池，不限速不封号，100个线程爬崩网站

摘要： scrapy版本爬取妹子图不封号，不限速，无限爬取关键所在下载图片 from scrapy.pipelines.images import ImagesPipeline 原来的类继承object,改为继承ImagesPipeline 其中函数名固定 def get_media_requests 阅读全文

posted @ 2022-05-09 22:22 hai起奈阅读(106) 评论(0) 推荐(0) 编辑

Pyppeteer 上

摘要： Pyppeteer Puppeteer 是 Google 基于 Node.js 开发的一个工具，有了它我们可以通过 JavaScript 来控制 Chrome 浏览器的一些操作，当然也可以用作网络爬虫上，其 API 极其完善，功能非常强大。而 Pyppeteer 又是什么呢？它实际上是 Puppe 阅读全文

posted @ 2022-05-09 22:21 hai起奈阅读(127) 评论(0) 推荐(0) 编辑

Pyppeteer 下

摘要：官方文档 https://miyakogi.github.io/pyppeteer/reference.html#mouse-class 启动pyppteer import asyncio from pyppeteer import launch async def main(): # headle 阅读全文

posted @ 2022-05-09 22:21 hai起奈阅读(90) 评论(0) 推荐(0) 编辑

Luz

公告