随笔分类 - 爬虫入狱指南
摘要:BeautifulSoup4库 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Model)的,
阅读全文
摘要:@retry装饰器requests请求失败并重复请求 在爬虫代码的编写中,requests请求网页的时候常常请求失败或错误,一般的操作是各种判断状态和超时,需要多次重试请求,这种情况下,如果想优雅的实现功能,可以学习下retrying包下的retry装饰器的使用 安装 pip install ret
阅读全文
摘要:python 操作RabbitMq 一、简介: RabbitMq 是实现了高级消息队列协议(AMQP)的开源消息代理中间件。消息队列是一种应用程序对应用程序的通行方式,应用程序通过写消息,将消息传递于队列,由另一应用程序读取 完成通信。而作为中间件的 RabbitMq 无疑是目前最流行的消息队列之一
阅读全文
摘要:方法 执行大型js时有点慢 特殊编码的输入或输出参数会出现报错,解决方法: 可以把输入或输出的参数用base64编码一下。base64都是英文和数字,没有特殊字符了 1--js2py pip insatll js2py # 获取执行JS的环境 context = js2py.EvalJs() # 加
阅读全文
摘要:服务器测试 curl -x 你的代理ip 'https://api.ip.sb/ip' # 查出口地址 curl -x 你的代理ip 'https://www.instagram.com/' # 测试代理是否好用
阅读全文
摘要:fake_useragent from fake_useragent import UserAgent fake_useragent :只有250个ua 安装:pip install fake_useragent # 实力化 ua = UserAgent(verify_ssl=False) 参数:
阅读全文
摘要:使用Airtest超快速开发App爬虫 想开发网页爬虫,发现被反爬了?想对 App 抓包,发现数据被加密了?不要担心,使用 Airtest 开发 App 爬虫,只要人眼能看到,你就能抓到,最快只需要2分钟,兼容 Unity3D、Cocos2dx-*、Android 原生 App、iOS App、Wi
阅读全文
摘要:一、架构介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon
阅读全文
摘要:scrapy版本爬取妹子图 不封号,不限速,无限爬取 关键所在下载图片 from scrapy.pipelines.images import ImagesPipeline 原来的类继承object,改为继承ImagesPipeline 其中 函数名固定 def get_media_requests
阅读全文
摘要:Pyppeteer Puppeteer 是 Google 基于 Node.js 开发的一个工具,有了它我们可以通过 JavaScript 来控制 Chrome 浏览器的一些操作,当然也可以用作网络爬虫上,其 API 极其完善,功能非常强大。 而 Pyppeteer 又是什么呢?它实际上是 Puppe
阅读全文
摘要:官方文档 https://miyakogi.github.io/pyppeteer/reference.html#mouse-class 启动pyppteer import asyncio from pyppeteer import launch async def main(): # headle
阅读全文
摘要:XPath语法和lxml模块 什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 Chrome插件XPath Helper。 安装方法: 打开插件伴侣,选择插件 选
阅读全文
摘要:一 简介 wxpy基于itchat,使用了 Web 微信的通讯协议,,通过大量接口优化提升了模块的易用性,并进行丰富的功能扩展。实现了微信登录、收发消息、搜索好友、数据统计等功能。 总而言之,可用来实现各种微信个人号的自动化操作。(http://wxpy.readthedocs.io/zh/late
阅读全文
摘要:介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium i
阅读全文
摘要:安装使用 # 安装 pip3 install beautifulsoup4 from bs4 import BeautifulSoup soup=BeautifulSoup(ret.text,'html.parser') # 传数据 soup=BeautifulSaoup(open('a.html'
阅读全文
摘要:各种请求方式 pip3 install requests >>> import requests >>> r = requests.get('https://www.cnblogs.com') >>> r = requests.post('https://www.cnblogs.com', data
阅读全文