随笔分类 - python高级应用
Python的高级运用
摘要:在测试某api时,偶然的发现一个很奇怪的现象
如下:
报的啥错呢:
requests.exceptions.ProxyError: HTTPSConnectionPool(host='www.xxxx.com', port=443): Max retries exceeded with url: / (Caused by ProxyError('Cannot connect to proxy.', timeout('_ssl.c:1108: The handshake operation timed out')))
根据我的经验,看到后面的Max retries exceeded with..... 之类的我都大概知道啥原因,就是请求重试量太多了,可是此时此刻我就一段同步代码啊,后面没内容了,而且也只请求了一次,headers里的Connection也是close而非keep-alive,verfiy也设置的false,
这咋回事呢
阅读全文
摘要:到底哪个更好用呢,看你个人吧,我觉得poetry更好一点咯,不过还是看个人喜好了
一:conda创建虚拟环境
1.安装conda
这个就省略了,网上太多教程了
2.创建虚拟环境:
阅读全文
摘要:什么是数据库同步
指在存储类型、格式和计算机系统之间的数据转换,这个名词没有严格的定义,反正就那个意思
mysql配置
mysql要实现数据库同步,得配置下才行。
阅读全文
摘要:前面有一两篇博文介绍过frida,对于做安全和逆向的朋友来说,那简直就是象棋里“車”的存在,走哪杀哪,所以这也对做安全的人来说,肯定也会针对frida做一定的反制,以下就是转载的检测frida的方法
阅读全文
摘要:前几天我一个做安全的哥们儿,做了个简单的数据展示平台,他让我做下反爬测试,我当即一堆操作就开始搞了,结果就遇到一个非常奇葩的问题。看截图:
这个是正常的请求:
阅读全文
摘要:篇一
JavaScript API
目录
Global
console
rpc
Frida
Process
Module
ModuleMa
阅读全文
摘要:现在这个大数据时代,流量逐渐由web端转移到移动端,而目前主流的移动端就是安卓和ios端了,随着时间的积累,很多平台的数据也越来越庞大,数据越来越多,同时,针对这方面的爬虫分析也慢慢开始多了起来,这真是我的切身体验,现在基本都要
阅读全文
摘要:死代码与花指令
在开始之前,我们先了解一下这种「在代码中插入大量无用代码以混淆视听」的混淆方式吧。这种混淆方式有两种叫法,或者说是两种做法,它们分别是「死代码」和「花指令」。
死代码
死代码一开始是被用来描述一些人写代码时写出的没有用到的代码的,为了编译后的文件尽可能地小,编译器通常会对死代码进行移除处理。
而在不知道什么时候开始,死代码被安全工作者们用来作为一种混淆机制,以将代码量变得极为庞大,使进行逆向工程的人难以找到主要逻辑。
但死代码有个很明显的特征:它虽然看着代码量很大,但实际却完全不会在程序的正常代码中被调用。
阅读全文
摘要:我们在爬取网站的时候,经常会遇到各种各样类似加密的情形,比如:
某个网站的 URL 带有一些看不懂的长串加密参数,想要抓取就必须要懂得这些参数是怎么构造的,否则我们连完整的 URL 都构造不出来,更不用说爬取了。
分析某个网站的 Ajax 接口的时候,可以看到接口的一些参数也是加密的,或者 Request Headers 里面也可能带有一些加密参数,如果不知道这些参数的具体构造逻辑就无法直接用程序来模拟这些 Ajax 请求。
阅读全文
摘要:这篇文章同样的还是转载崔大的,因为都是一个系列的,所以我就转载出来了,我觉得很实用。原文链接:点我
以下内容为原文。
之前我们介绍了 ajax-hook 来实现爬虫的过程中截获 Ajax 请求,可以看这篇文章如何用 Hook 实时处理和保存 Ajax 数据,在这里再另外介绍一个工具 BrowserMob Proxy,利用它我们同样可以实现 Selenium 爬虫过程中 Ajax 请求的获取。
下面我们来简单介绍一下。
阅读全文
摘要:selenium库的安装很简单:
pip install selenium
# pip install selenium -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
阅读全文
摘要:本篇文章转载于崔大的公众号文章,瞬间感觉这是个大招啊,赶紧学习起来
原文链接:点我, 以下为原文内容:
做爬虫的时候我们经常会遇到这么一个问题:
阅读全文
摘要:0.工具准备:
微信号
关注好目标公众号
charles
准备一个微信号,建议不要用刚注册的微信号来操作,容易被封号,微信内部是有一套反爬系统的,你运气不好就会触发到
关注好你需要爬取的公众号,因为要关注了,你才可以打开这个公众号的历史消息,不然的话,你只能看到最近的几篇文章,说白了就是看不全,搜狗搜索针对微信公众号的搜索我没猜错就是这样,所以只能看前几条信息,并且我发现搜狗搜索已经不好使了
charles就是抓包工具,这个网上很多资源,配置步骤也有很多,这个就自行查看配置了,记得要装上ssl证书,配置好ssl的代理。
那么有朋友要问,可以用fiddler替代charles吗?
阅读全文
摘要:本来安装frida就两个命令就搞定的事
pip install frida
pip install frida-tools
但是死活给整了一两个小时
一执行pip命令,不是报 如下错:
WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status =None))
就是报如下错:
fridaERROR: Command errored out with exit status 1: /Library/Framew......
真的给我整懵逼了,查了一堆,都是说更改安装源为国内就行,但是,我用了,命令如下:
pip install -i http://pypi.douban.com/simple/--trusted-host pypi.douban.com frida
阅读全文
摘要:不管我怎么搞都解码不出来,查了下,说的是在 Node 层利用 cheerio 解析网页时,输出的中文内容都是以 &#x 开头的一堆像乱码一样的东西,尝试过各种编码都无效,而且神奇的是,将这一堆“乱码”保存成网页后,通过浏览器打开又可以正常显示,凭我多年的爬虫分析经验来看,这应该就是我要的东西,并不是随机生成的,想了很久,我突然想起了一种html的页码表现形式,有没有觉得很像那种html的特征码,比如 空格就是 以上的数据,格式是是不是非常像
阅读全文
摘要:别问为什么会想到对微信小程序反编译,就是临时想起的
然后往上搜罗了各种,资料,总结如下:
需要用到工具:
npm
安卓模拟器
微信开发者工具
反编译工具
阅读全文
摘要:偶然的发现某网站,采用的是post请求,然后打开f12调试查看:
它提交的参数并不是我们熟悉的formdata类型,而是payload,这种是怎么回事呢,先了解下什么是payload
Request Payload
我们都知道,前端与后端交互,一般有几种模式,且通过字段Content-Type区分
Content-Type:
application/x-www-form-urlencoded
application/json
multipart/form-data
写过后端接口的朋友对这个应该不陌生
写过前端的朋友,看这个,你应该也不陌
阅读全文
摘要:言
同上一篇的aes加密一样,也是偶然发现这个rsa加密的,目标网站我就不说了,保密。
当我发现这个网站是ajax加载时:
我已经习以为常,正在进行爬取时,发现返回为空,我开始用findler抓包,发现它验证了cookie,然后我带上cookie访问放到headers里,就能得到结果
heade
阅读全文
摘要:发现问题
在一次偶然中,在爬取某个网站时,老方法,打开调试工具查看请求方式,请求拦截,是否是异步加载,不亦乐乎,当我以为这个网站非常简单的时候,发现二级网页的地址和源码不对应
Ajax异步加载?源码也是这样的
而且这些链接直接访问根本无法访问
用火狐浏览器的event显示:
找到加密方式
源码:
function() {
var hh = $(this).attr("href");
if (typeof(hh) == 'undefined' || hh == '#') {
return
}
var aa = hh.split("/");
var aaa = aa.length;
阅读全文