爬虫 - 随笔分类(第3页) - 阿布_alone

tesseract的简单使用

摘要：Tesseract 是一个开源的 OCR 引擎，可以识别多种格式的图像文件并将其转换成文本，最初由 HP 公司开发，后来由 Google 维护。下载地址：https://digi.bib.uni-mannheim.de/tesseract/ 其中文件名中带有 dev 的为开发版本，不带 dev 的为阅读全文

posted @ 2019-05-21 10:08 阿布_alone 阅读(2373) 评论(1) 推荐(0) 编辑

快速添加请求头

摘要：代码：执行：阅读全文

posted @ 2019-05-19 11:36 阿布_alone 阅读(1063) 评论(0) 推荐(0) 编辑

冷月通用识别

摘要：import requests import json r=requests.post('http://127.0.0.1:7788',data=open('5.jpg','rb')) code=json.loads(r.text)['code'] print(code) 阅读全文

posted @ 2019-05-17 20:31 阿布_alone 阅读(820) 评论(1) 推荐(0) 编辑

去哪儿

摘要：''' 爬取去哪儿网所有城市自由行数据爬取速度过快时会引发服务器返回错误反反爬策略:设置cookies池和ip代理池以及延长爬虫休眠时间 ''' import requests import time from urllib.parse import quote from multiprocessing import Pool import pymongo import random de... 阅读全文

posted @ 2019-05-16 18:03 阿布_alone 阅读(645) 评论(0) 推荐(0) 编辑

pyppepeer淘宝登录

摘要：代码：阅读全文

posted @ 2019-05-09 23:02 阿布_alone 阅读(769) 评论(0) 推荐(0) 编辑

appnium适应之配置

摘要：一.session 寻找包名和activityname的另外一职中方式 2.python脚本驱动淘宝列子：阅读全文

posted @ 2019-05-09 16:29 阿布_alone 阅读(699) 评论(0) 推荐(0) 编辑

app之---豆果美食

摘要：1.抓包 2.代码抓取：存储：阅读全文

posted @ 2019-05-09 15:50 阿布_alone 阅读(372) 评论(0) 推荐(0) 编辑

爬取百度信用（转）

摘要：转自：https://blog.csdn.net/weixin_42812527/article/details/86682167 阅读全文

posted @ 2019-05-07 17:12 阿布_alone 阅读(843) 评论(0) 推荐(0) 编辑

Python 执行 javascript PyExecJS 模块

摘要：这里使用了一个网站的网页做示例,它的源代码中有这么一段我们的目标是提取图中的json数据，代码如下：执行结果如下图：那么怎么执行一个.js后缀的文件呢 p 获取的就是函数执行的返回值阅读全文

posted @ 2019-05-05 22:44 阿布_alone 阅读(2782) 评论(0) 推荐(0) 编辑

python3使用js2py

摘要：安装：使用：执行js函数：执行js函数：阅读全文

posted @ 2019-05-05 21:17 阿布_alone 阅读(2593) 评论(0) 推荐(0) 编辑

Pyppeteer入门（转载）

摘要：一.简介 Puppeteer 是 Google 基于 Node.js 开发的一个工具，有了它我们可以通过 JavaScript 来控制 Chrome 浏览器的一些操作，当然也可以用作网络爬虫上，其 API 极其完善，功能非常强大。而 Pyppeteer 又是什么呢？它实际上是 Puppeteer 阅读全文

posted @ 2019-05-05 12:45 阿布_alone 阅读(7923) 评论(0) 推荐(0) 编辑

scrapydweb的初步使用（管理分布式爬虫）

摘要：https://github.com/my8100/files/blob/master/scrapydweb/README_CN.md 一.安装配置 1、请先确保所有主机都已经安装和启动 Scrapyd，如果需要远程访问 Scrapyd，则需将 Scrapyd 配置文件中的 bind_address 阅读全文

posted @ 2019-05-04 21:48 阿布_alone 阅读(2264) 评论(0) 推荐(0) 编辑

爬取微信文章

摘要：1.抓包打开微信网页版抓包：通过分析，我们知道，每次已请求文章只是偏移量offset不一样而已。还有要注意的是，每个公众号对应的cookies是不一样的，这个也是要小心的根据接口数据构造请求，便能获取公众号文章了！ 2.构造请求，获取数据数据： 3.另外一个版本 2.手机版把url和h 阅读全文

posted @ 2019-05-03 17:36 阿布_alone 阅读(2767) 评论(1) 推荐(0) 编辑

airtest的使用（作用类似于appium）

摘要：1.安装下载免安装版本：http://airtest.netease.com/ 文档：http://airtest.netease.com/docs/docs_AirtestIDE-zh_CN/index.html 2.使用直接运行airtest.exe文件即可注意：关于连接模拟器（找模拟器的阅读全文

posted @ 2019-05-03 15:56 阿布_alone 阅读(1565) 评论(0) 推荐(0) 编辑

mimtproxy的使用（windows）

摘要：1.安装或者下载安装指定版本：https://mitmproxy.org/downloads/ 2.配置证书对于mitmproxy来说，如果想要截获HTTPS请求，就需要设置证书。mitmproxy在安装后会提供一套CA证书，只要客户端信任了mitmproxy提供的证书，就可以通过 mitmpr 阅读全文

posted @ 2019-05-01 21:44 阿布_alone 阅读(2493) 评论(0) 推荐(0) 编辑

抓包工具charles的使用

摘要：具体使用可参考：https://www.axihe.com/charles/charles/tutorial.html 一.安装到官网下载安装https://www.charlesproxy.com/ 破解：在Help窗口内选择 Register 填入账号密码：配置：电脑端设置代理：Prox 阅读全文

posted @ 2019-04-30 22:30 阿布_alone 阅读(611) 评论(0) 推荐(0) 编辑

gerapy的初步使用（管理分布式爬虫）

摘要：一.简介与安装 Gerapy 是一款分布式爬虫管理框架，支持 Python 3，基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发。特点：安装： F:\g 阅读全文

posted @ 2019-04-30 16:23 阿布_alone 阅读(1825) 评论(0) 推荐(0) 编辑

利用scrapy-client发布爬虫的远程服务器

摘要：一.环境准备远程服务器必须装有scapyd，我们使用的机器必须有scrapy-client（我这里是windows），并确保这两者正常安装并启动。二.客户端准备上传首先进入到爬虫项目的根文件夹：这样就是成功了。三.配置爬虫项目打开爬虫项目中的scrapy.cfg文件，这个文件就是给scr 阅读全文

posted @ 2019-04-27 00:07 阿布_alone 阅读(629) 评论(0) 推荐(0) 编辑

Scrapyd-Client的安装

摘要：1. pip安装这里推荐使用pip安装，相关命令如下： 2.验证安装安装成功后会有一个可用命令，叫作scrapyd-deploy，即部署命令。我们可以输入如下测试命令测试Scrapyd-Client是否安装成功：如果出现类似如图1-86所示的输出，则证明Scrapyd-Client已经成功安阅读全文

posted @ 2019-04-26 22:53 阿布_alone 阅读(665) 评论(0) 推荐(0) 编辑

Scrapyd API的安装

摘要：安装好了Scrapyd之后，我们可以直接请求它提供的API来获取当前主机的Scrapy任务运行状况。比如，某台主机的IP为192.168.1.1，则可以直接运行如下命令获取当前主机的所有Scrapy项目：运行结果如下： 1 {"status": "ok", "projects": ["myproj 阅读全文

posted @ 2019-04-26 22:33 阿布_alone 阅读(704) 评论(0) 推荐(0) 编辑

阿布alone

随笔分类 - 爬虫

公告