Eeyhan - 博客园

2020年6月9日

摘要：这篇文章同样的还是转载崔大的，因为都是一个系列的，所以我就转载出来了，我觉得很实用。原文链接：点我以下内容为原文。之前我们介绍了 ajax-hook 来实现爬虫的过程中截获 Ajax 请求，可以看这篇文章如何用 Hook 实时处理和保存 Ajax 数据，在这里再另外介绍一个工具 BrowserMob Proxy，利用它我们同样可以实现 Selenium 爬虫过程中 Ajax 请求的获取。下面我们来简单介绍一下。阅读全文

posted @ 2020-06-09 15:25 Eeyhan 阅读(4218) 评论(1) 推荐(0) 编辑

2020年6月2日

macos安装selenium+浏览器驱动

摘要： selenium库的安装很简单： pip install selenium # pip install selenium -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 阅读全文

posted @ 2020-06-02 19:59 Eeyhan 阅读(1039) 评论(0) 推荐(0) 编辑

爬虫神器，对ajax加载的数据进行hook截取，无视带有加密参数的接口

摘要：本篇文章转载于崔大的公众号文章，瞬间感觉这是个大招啊，赶紧学习起来原文链接：点我，以下为原文内容：做爬虫的时候我们经常会遇到这么一个问题：阅读全文

posted @ 2020-06-02 19:38 Eeyhan 阅读(4752) 评论(1) 推荐(2) 编辑

2020年5月28日

macos 配置apache,mysql,php,nginx环境

摘要：众所周知，php在mac里是自带的目前IT行业发展到现在，要配置个东西简直分分钟的事，而我作为一个从python转学php初学者，慢慢摸索出了以下的安装方法，当然其实完全可以远程拉取一个docker的镜像即可使用，这个后面再说，目前还是直接用本地的吧，本地的话就有集成环境和自安装环境的区别了，什么阅读全文

posted @ 2020-05-28 10:19 Eeyhan 阅读(415) 评论(0) 推荐(0) 编辑

2020年5月26日

对WX公众号文章的爬取分析

摘要： 0.工具准备：微信号关注好目标公众号 charles 准备一个微信号，建议不要用刚注册的微信号来操作，容易被封号，微信内部是有一套反爬系统的，你运气不好就会触发到关注好你需要爬取的公众号，因为要关注了，你才可以打开这个公众号的历史消息，不然的话，你只能看到最近的几篇文章，说白了就是看不全，搜狗搜索针对微信公众号的搜索我没猜错就是这样，所以只能看前几条信息，并且我发现搜狗搜索已经不好使了 charles就是抓包工具，这个网上很多资源，配置步骤也有很多，这个就自行查看配置了，记得要装上ssl证书，配置好ssl的代理。那么有朋友要问，可以用fiddler替代charles吗？阅读全文

posted @ 2020-05-26 19:38 Eeyhan 阅读(1335) 评论(0) 推荐(0) 编辑

2020年5月19日

对app的反爬测试之apk逆向分析-frida绕过ssl pinning检测

摘要：受人所托，需要对他们的产品进行反爬测试，所以就有了以下内容，不过，我知道，针对这方面的文章太多了，是真的多，而且好早就有了，但是目前为止，很多app的防护基本也还是用的ssl pinning检测证书。因为，目前的app要嘛不用ssl，要嘛用就是一般的ssl，基本就是在手机上装个相关软件的代理即可，而且这个代理基本就是fiddler，charlels，burpsuite三个抓包软件自带的ssl证书，然后即可抓到ssl（https）的请求以上这些，基本可以解决大部分的app（其实很多使用ssl的网站也是这样处理）但是因为很多app为了防止数据被分析爬取，会做ssl pinning验证阅读全文

posted @ 2020-05-19 18:47 Eeyhan 阅读(12967) 评论(0) 推荐(5) 编辑

2020年5月14日

macos 安装frida的坑

摘要：本来安装frida就两个命令就搞定的事 pip install frida pip install frida-tools 　　但是死活给整了一两个小时一执行pip命令，不是报如下错： WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status =None)) 　　就是报如下错： fridaERROR: Command errored out with exit status 1: /Library/Framew...... 　　真的给我整懵逼了，查了一堆，都是说更改安装源为国内就行，但是，我用了，命令如下： pip install -i http://pypi.douban.com/simple/--trusted-host pypi.douban.com frida 阅读全文

posted @ 2020-05-14 19:40 Eeyhan 阅读(3651) 评论(0) 推荐(1) 编辑

2020年5月3日

记录一个开头带有&#x的特征数据的解码

摘要：不管我怎么搞都解码不出来，查了下，说的是在 Node 层利用 cheerio 解析网页时，输出的中文内容都是以 &#x 开头的一堆像乱码一样的东西，尝试过各种编码都无效，而且神奇的是，将这一堆“乱码”保存成网页后，通过浏览器打开又可以正常显示，凭我多年的爬虫分析经验来看，这应该就是我要的东西，并不是随机生成的，想了很久，我突然想起了一种html的页码表现形式，有没有觉得很像那种html的特征码，比如空格就是以上的数据，格式是是不是非常像阅读全文

posted @ 2020-05-03 18:57 Eeyhan 阅读(842) 评论(0) 推荐(0) 编辑

2020年4月19日

从一次失败的WX小程序抓包、反编译经历中学习反思

摘要：别问为什么会想到对微信小程序反编译，就是临时想起的然后往上搜罗了各种，资料，总结如下：需要用到工具： npm 安卓模拟器微信开发者工具反编译工具阅读全文

posted @ 2020-04-19 17:06 Eeyhan 阅读(4912) 评论(2) 推荐(0) 编辑

2020年3月14日

Python爬虫处理奇葩的请求参数payload

摘要：偶然的发现某网站，采用的是post请求，然后打开f12调试查看：它提交的参数并不是我们熟悉的formdata类型，而是payload，这种是怎么回事呢，先了解下什么是payload Request Payload 我们都知道，前端与后端交互，一般有几种模式，且通过字段Content-Type区分 Content-Type： application/x-www-form-urlencoded application/json multipart/form-data 写过后端接口的朋友对这个应该不陌生写过前端的朋友，看这个，你应该也不陌阅读全文

posted @ 2020-03-14 11:32 Eeyhan 阅读(4676) 评论(1) 推荐(1) 编辑

geekbyte

公告