爬虫入狱指南 - 随笔分类 - hai起奈

BeautifulSoup4

摘要：BeautifulSoup4库和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM（Document Object Model）的，阅读全文

posted @ 2022-05-18 21:27 hai起奈阅读(155) 评论(0) 推荐(0)

retry装饰器

摘要：@retry装饰器requests请求失败并重复请求在爬虫代码的编写中，requests请求网页的时候常常请求失败或错误，一般的操作是各种判断状态和超时，需要多次重试请求，这种情况下，如果想优雅的实现功能，可以学习下retrying包下的retry装饰器的使用安装 pip install ret 阅读全文

posted @ 2022-05-09 22:28 hai起奈阅读(150) 评论(0) 推荐(0)

python 操作RabbitMq

摘要：python 操作RabbitMq 一、简介： RabbitMq 是实现了高级消息队列协议（AMQP）的开源消息代理中间件。消息队列是一种应用程序对应用程序的通行方式，应用程序通过写消息，将消息传递于队列，由另一应用程序读取完成通信。而作为中间件的 RabbitMq 无疑是目前最流行的消息队列之一阅读全文

posted @ 2022-05-09 22:26 hai起奈阅读(213) 评论(0) 推荐(0)

测试代理

摘要：服务器测试 curl -x 你的代理ip 'https://api.ip.sb/ip' # 查出口地址 curl -x 你的代理ip 'https://www.instagram.com/' # 测试代理是否好用阅读全文

posted @ 2022-05-09 22:24 hai起奈阅读(71) 评论(0) 推荐(0)

useragent池

摘要：fake_useragent from fake_useragent import UserAgent fake_useragent ：只有250个ua 安装：pip install fake_useragent # 实力化 ua = UserAgent(verify_ssl=False) 参数：阅读全文

posted @ 2022-05-09 22:24 hai起奈阅读(119) 评论(0) 推荐(0)

执行JS字符串

摘要：方法执行大型js时有点慢特殊编码的输入或输出参数会出现报错，解决方法：可以把输入或输出的参数用base64编码一下。base64都是英文和数字，没有特殊字符了 1--js2py pip insatll js2py # 获取执行JS的环境 context = js2py.EvalJs() # 加阅读全文

posted @ 2022-05-09 22:24 hai起奈阅读(418) 评论(0) 推荐(0)

使用Airtest超快速开发App爬虫

摘要：使用Airtest超快速开发App爬虫想开发网页爬虫，发现被反爬了？想对 App 抓包，发现数据被加密了？不要担心，使用 Airtest 开发 App 爬虫，只要人眼能看到，你就能抓到，最快只需要2分钟，兼容 Unity3D、Cocos2dx-*、Android 原生 App、iOS App、Wi 阅读全文

posted @ 2022-05-09 22:23 hai起奈阅读(431) 评论(0) 推荐(0)

scarpy爬虫框架

摘要：一、架构介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon 阅读全文

posted @ 2022-05-09 22:22 hai起奈阅读(178) 评论(0) 推荐(0)

scrapy版本爬取某网站，加入了ua池，ip池，不限速不封号，100个线程爬崩网站

摘要：scrapy版本爬取妹子图不封号，不限速，无限爬取关键所在下载图片 from scrapy.pipelines.images import ImagesPipeline 原来的类继承object,改为继承ImagesPipeline 其中函数名固定 def get_media_requests 阅读全文

posted @ 2022-05-09 22:22 hai起奈阅读(134) 评论(0) 推荐(0)

Pyppeteer 下

摘要：官方文档 https://miyakogi.github.io/pyppeteer/reference.html#mouse-class 启动pyppteer import asyncio from pyppeteer import launch async def main(): # headle 阅读全文

posted @ 2022-05-09 22:21 hai起奈阅读(153) 评论(0) 推荐(0)

Pyppeteer 上

摘要：Pyppeteer Puppeteer 是 Google 基于 Node.js 开发的一个工具，有了它我们可以通过 JavaScript 来控制 Chrome 浏览器的一些操作，当然也可以用作网络爬虫上，其 API 极其完善，功能非常强大。而 Pyppeteer 又是什么呢？它实际上是 Puppe 阅读全文

posted @ 2022-05-09 22:21 hai起奈阅读(287) 评论(0) 推荐(0)

XPath语法和lxml模块

摘要：XPath语法和lxml模块什么是XPath？ xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 Chrome插件XPath Helper。安装方法：打开插件伴侣，选择插件选阅读全文

posted @ 2022-05-08 02:01 hai起奈阅读(63) 评论(0) 推荐(0)

微型机器人

摘要：一简介 wxpy基于itchat，使用了 Web 微信的通讯协议，，通过大量接口优化提升了模块的易用性，并进行丰富的功能扩展。实现了微信登录、收发消息、搜索好友、数据统计等功能。总而言之，可用来实现各种微信个人号的自动化操作。（http://wxpy.readthedocs.io/zh/late 阅读全文

posted @ 2022-05-06 02:01 hai起奈阅读(329) 评论(0) 推荐(0)

selenium爬虫

摘要：介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器 from selenium i 阅读全文

posted @ 2022-05-06 02:00 hai起奈阅读(283) 评论(0) 推荐(0)

bs4

摘要：安装使用 # 安装 pip3 install beautifulsoup4 from bs4 import BeautifulSoup soup=BeautifulSoup(ret.text,'html.parser') # 传数据 soup=BeautifulSaoup(open('a.html' 阅读全文

posted @ 2022-05-05 16:40 hai起奈阅读(171) 评论(0) 推荐(0)

request

摘要：各种请求方式 pip3 install requests >>> import requests >>> r = requests.get('https://www.cnblogs.com') >>> r = requests.post('https://www.cnblogs.com', data 阅读全文

posted @ 2022-05-05 16:39 hai起奈阅读(348) 评论(0) 推荐(0)

Luz

随笔分类 - 爬虫入狱指南

公告