取自《Python-3反爬虫原理与绕过实战》
Cookie不仅可以用于Web服务器的用户身份信息存储或状态保持，还能够用于反爬虫。大部分的爬虫程序在默认情况下只请求HTML文本资源，这意味着它们并不会主动完成浏览器保存Cookie的操作。Cookie反爬虫指的是服务器端通过校验请求头中的Cookie值来区分正常用户和爬虫程序的手段，这种手段被广泛应用在Web应用中，例如浏览器会自动检查响应头中是否存在Set-Cookie头域，如果存在，则将值保存在本地，而且往后的每次请求都会自动携带对应的Cookie值，这时候只要服务器端对请求头中的Cookie值进行校验即可。服务器会校验每个请求头中的Cookie值是否符合规则，如果通过校验，则返回正常资源，否则将请求重定向到首页，同时在响应头中添加Set-Cookie头域和Cookie值。

实战

观察

打开开发者工具，切换页面，看一看我们要爬取的目标的接口url是哪个

发现目标就是一串类似uuid的url，再看看html，那么其实这一串uuid组成的url我们是可以通过a标签获得的，现在只要爬取我们的目标的具体信息即可

看一下我们的具体信息在html中是何种表现形式

可以看到也是一个a标签的形式，那么我们的思路就明确了

随便找一个uuid的url=>
通过详细信息的a标签中的链接爬取所有的详细信息=>
通过下一页的a标签中的链接访问下一页的url=>
一直循环直到页空的尽头

那我们写一个简单的爬虫看看能不能爬取到,直接用网站

import requests

cookies = {
    'Hm_lvt_9511d505b6dfa0c133ef4f9b744a16da': '1631673117',
    'ASP.NET_SessionId': 'xel3j5xxd5fxgu5rgv0cf2ms',
    'spvrscode': 'abdc551c0bd7f81cca4e2804c23afe646e1a1904a5570f1e626ce42731a8b2bb7e2ac5430a0b4c2671adf2973523fe3be72a87e6e56c76657e1ac381a254570e7ac433db747372123549b582c4dfa98f60816aca302433f60fddfbff563c19556c1cb013f26eadbd5d81d8ffc0a22fae8275c1fd42b386c2ef1d085048ae3a9a544793a7c2307dd2',
    'Hm_lpvt_9511d505b6dfa0c133ef4f9b744a16da': '1631685108',
}

headers = {
    'Connection': 'keep-alive',
    'sec-ch-ua': '"Microsoft Edge";v="93", " Not;A Brand";v="99", "Chromium";v="93"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36 Edg/93.0.961.47',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-User': '?1',
    'Sec-Fetch-Dest': 'document',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
}

response = requests.get('https://www.***.***/15022E858978-A7C0-4D99-A602-967A31FB4828.html', headers=headers, cookies=cookies)
print(response.text)

可恶世上果然没有简单的事情，我们遇到了高手，可以和学员说这个是个高手耶稣来了也救不了。。。。。。那是不可能的，继承自肉丝老师服务第一的传统，有困难就要解决，解决不了也要硬解决，还是拿起我的水壶边喝水边分析吧。拿出我多年未见的老朋友burpsuit（上次一别以是一年），一点一点的试一下，发送到repeater，一个一个的删除参数，最后终于定位到了是cookie中的spvrscode=，当它为空的时候会返回一串js代码，当cookie过期的时候他就会返回非授权访问，那么现在就用之前的cookie通杀脚本来进行定位cookie是如何生成的。

var cookie = document.cookie;
document = Object.defineProperty(document, 'cookie', {
  get: function () {
    console.log('getter: ' + cookie);
    return cookie;
  },
  set: function (value) {
    console.log('setter: ' + value);
    cookie = value
  }
});

先把数据和cookie都清一清，然后注意这里他会网页重定向刷新一次网页，这时候如果我们在script上下断点执行一次hook直接放开的话，重定向就会把我们的hook给刷新掉，所以可以使用油猴脚本hook或者在每个断点都运行一下hook脚本

最终定位到了这里

就是一个查看一下ck的值，看看是不是我们想要的结果

就是我们想要的cookie的值，那么这里就可以开始逆向工作了，一步一步的回溯ck是怎样生成的

 ck=_0x3cc240(0x90) + b + _0x3cc240(0x8b) + exp[_0x3cc240(0x95)]() + ';'

_0x3cc240(0x90)='spvrscode='
b='e73fbff4ed0cd6bdd7a2b41a2b2c915ce7b0b047552752268c1ea11adfc9b5422c33f2ec7cfdc9fe0b7df5ca707503f80b0039c93e8636c6ac1063c135494a1a6254d35b623e2f4803a67ac44ec8c7e99f517d25fbec1f7dfbfb569004d7eef408ad6e675c4562172112e4e1da5f359d25e07e80915b71794669e0f88c6f11b39a0e5d34695d5bc9'//目标
...//剩下作用不大

接着追b

b = escape(encryptvrscode)
encryptvrscode='e73fbff4ed0cd6bdd7a2b41a2b2c915ce7b0b047552752268c1ea11adfc9b5422c33f2ec7cfdc9fe0b7df5ca707503f80b0039c93e8636c6ac1063c135494a1a6254d35b623e2f4803a67ac44ec8c7e99f517d25fbec1f7dfbfb569004d7eef408ad6e675c4562172112e4e1da5f359d25e07e80915b71794669e0f88c6f11b39a0e5d34695d5bc9'//目标
encryptvrscode = encrypted[_0x3cc240(0x97)][_0x3cc240(0x8f)]()
_0x3cc240(0x97)='ciphertext'
_0x3cc240(0x8f)='toString'

那么就继续追踪encrypted，探索一下子是个牛马对象

var keyHex = CryptoJS['enc'][_0x3cc240(0xa3)][_0x3cc240(0xa4)](a)
      , encrypted = CryptoJS[_0x3cc240(0xa2)][_0x3cc240(0x8a)](b, keyHex, {
        'mode': CryptoJS[_0x3cc240(0xaf)]['ECB'],
        'padding': CryptoJS[_0x3cc240(0xa9)][_0x3cc240(0x99)]
    })

CryptoJS....,眼前一亮，蓝师傅说过的加密库，翻译一下即可

_0x3cc240(0xa3)='Utf8'
_0x3cc240(0xa4)='parse'
a='eb74960d'
_0x3cc240(0xa2)=`DES`
_0x3cc240(0x8a)='encrypt'
_0x3cc240(0xa9)=`pad`
_0x3cc240(0x99)=`Pkcs7`
b='E04A051E2E4370CE3F2AB90D7ECF6CFAC225C8B8FC6076977E8546DC17C7F890D3D442529EEE9941C3BDE3766931B7C846F43BBB36E02E3ED90B87B40A96AEDF'//此b非彼b所以下面的结果和前面的不一样，下面用新的b开始

翻译一下

var keyHex = CryptoJS['enc']['Utf8']['parse']('eb74960d')
      , encrypted = CryptoJS[`DES`]['encrypt'](b, keyHex, {
        'mode': CryptoJS[`mode`]['ECB'],
        'padding': CryptoJS[`pad`][`Pkcs7`]
    })

这时候可以去看一下百度上CryptoJS的使用案例，我们就知道它的加密流程了，官方使用流程大概如下

var CryptoJS = require("crypto-js");

// Encrypt
var ciphertext = CryptoJS.AES.encrypt('my message', 'secret key 123').toString();

// Decrypt
var bytes  = CryptoJS.AES.decrypt(ciphertext, 'secret key 123');
var originalText = bytes.toString(CryptoJS.enc.Utf8);

console.log(originalText); // 'my message'

其实这就是一个DES加密的ECB模式，那么我们可以找一个网站试一下(密钥又换了又刷新了一下)

可以看到一模一样，那么我们就知道了这是个标准算法，python能够简单的实现，那么现在还有一个问题就是key和b是哪来的，向上追溯可以发现是js中自带的

  var a = '7a957fbd';
var b = '06D9057FAC69E1AE39B3A37E03AFDCBD4ADF15025C574F066CC2955184438E628FC2C4B99FB54308949051450B883FF2AB5155516482D79AB0B22FF8553ACD7C';

over,可以开始写程序了

第一次访问随便找一个uuid的url得到js=>
第二次携带cookie访问url得到我们要的html数据=>
通过详细信息的a标签中的链接爬取所有的详细信息=>
通过下一页的a标签中的链接访问下一页的url=>
一直循环直到页空的尽头

这里我选择了，直接调用js代码，也可以写正则匹配拿到message和key,并且补环境也用了之前的代码，跑一遍js还是缺环境了,安装一个CryptoJS

npm install crypto-js

然后导入,发现结果

var CryptoJS = require("crypto-js");
......
console.log(ck)

那么现在就可以写我们的脚本进行爬取了,成功得到cookie的值,期间需要加入一个getcookie函数，和使用execjs这个之前都讲过这里不再赘述了，落地加载js（其实不落地也行）

response = requests.get('https://****.***.***/15022E858978-A7C0-4D99-A602-967A31FB4828.html', headers=headers, cookies=cookies)
pattern = re.compile("<script>(.*)</script>",re.S)
jscode = pattern.findall(response.text)[0]
with open("./MyProxy.js", "r") as f:
    envcode = f.read()

getcookie="function getcookie(){return document.cookie;}"
allcode = envcode + jscode+"\n"+getcookie;
with open("./allcode.js", "w") as f:
    f.write(allcode)
ctx = execjs.compile(allcode)
spvrscode = ctx.call("getcookie")
print(spvrscode)

但是要注意，这个网址是spvrscode与sessionid一一对应的，所以要定义类来进行统一会话，最终代码如下

class spider:
    def __init__(self):
        self.session = requests.session()

    def getdata(self, url):
        headers = {
            'Connection': 'keep-alive',
            'Pragma': 'no-cache',
            'Cache-Control': 'no-cache',
            'sec-ch-ua': '" Not;A Brand";v="99", "Google Chrome";v="91", "Chromium";v="91"',
            'sec-ch-ua-mobile': '?0',
            'Upgrade-Insecure-Requests': '1',
            'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
            'Sec-Fetch-Site': 'same-origin',
            'Sec-Fetch-Mode': 'navigate',
            'Sec-Fetch-User': '?1',
            'Sec-Fetch-Dest': 'document',
            'Accept-Language': 'zh-CN,zh;q=0.9',
        }

        response = self.session.get(url, headers=headers)
        html = response.text
        if "******" not in response.text:
            pattern = re.compile("<script>(.*)</script>",re.S)
            jscode = pattern.findall(response.text)[0]
            with open("./MyProxy.js", "r") as f:
                envcode = f.read()

            getcookie = "function getcookie(){return b;}"
            allcode = envcode + jscode + "\n" + getcookie;
            with open("./allcode.js", "w") as f:
                f.write(allcode)
            ctx = execjs.compile(allcode)
            spvrscode = ctx.call("getcookie")
            requests.utils.add_dict_to_cookiejar(self.session.cookies, {"spvrscode": spvrscode})
            response = self.session.get('***********', headers=headers)
            html = response.text
            print(self.session.cookies.values())


if __name__ == '__main__':
    s=spider();
    s.getdata("https://***********")

得到了html

posted on 2021-09-26 11:47 r0ysue 阅读(595) 评论(0) 编辑收藏举报

刷新页面返回顶部

公告

导航

理论基础

实战

观察

导航

js cookie 反爬

理论基础

实战

观察