06 2020 档案
摘要:现在这个大数据时代,流量逐渐由web端转移到移动端,而目前主流的移动端就是安卓和ios端了,随着时间的积累,很多平台的数据也越来越庞大,数据越来越多,同时,针对这方面的爬虫分析也慢慢开始多了起来,这真是我的切身体验,现在基本都要
阅读全文
摘要:死代码与花指令
在开始之前,我们先了解一下这种「在代码中插入大量无用代码以混淆视听」的混淆方式吧。这种混淆方式有两种叫法,或者说是两种做法,它们分别是「死代码」和「花指令」。
死代码
死代码一开始是被用来描述一些人写代码时写出的没有用到的代码的,为了编译后的文件尽可能地小,编译器通常会对死代码进行移除处理。
而在不知道什么时候开始,死代码被安全工作者们用来作为一种混淆机制,以将代码量变得极为庞大,使进行逆向工程的人难以找到主要逻辑。
但死代码有个很明显的特征:它虽然看着代码量很大,但实际却完全不会在程序的正常代码中被调用。
阅读全文
摘要:我们在爬取网站的时候,经常会遇到各种各样类似加密的情形,比如:
某个网站的 URL 带有一些看不懂的长串加密参数,想要抓取就必须要懂得这些参数是怎么构造的,否则我们连完整的 URL 都构造不出来,更不用说爬取了。
分析某个网站的 Ajax 接口的时候,可以看到接口的一些参数也是加密的,或者 Request Headers 里面也可能带有一些加密参数,如果不知道这些参数的具体构造逻辑就无法直接用程序来模拟这些 Ajax 请求。
阅读全文
摘要:这篇文章同样的还是转载崔大的,因为都是一个系列的,所以我就转载出来了,我觉得很实用。原文链接:点我
以下内容为原文。
之前我们介绍了 ajax-hook 来实现爬虫的过程中截获 Ajax 请求,可以看这篇文章如何用 Hook 实时处理和保存 Ajax 数据,在这里再另外介绍一个工具 BrowserMob Proxy,利用它我们同样可以实现 Selenium 爬虫过程中 Ajax 请求的获取。
下面我们来简单介绍一下。
阅读全文
摘要:selenium库的安装很简单:
pip install selenium
# pip install selenium -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
阅读全文
摘要:本篇文章转载于崔大的公众号文章,瞬间感觉这是个大招啊,赶紧学习起来
原文链接:点我, 以下为原文内容:
做爬虫的时候我们经常会遇到这么一个问题:
阅读全文