爬取中国裁判文书网(2020年初版本版,网上大多是18年的很老,而且已经不实用,我并没有在里面看到guid)

来源:https://blog.csdn.net/qq_39697564/article/details/106859137

1.序言

因业务需要去爬取裁判文书网,查看了网上的诸多教程发现裁判文书网的反爬更新频率很高,但是从19年8月份更新之后再也没有新的更新了。估计是现在的反爬已经足够使用了,裁判文书网的反爬主要有四种。听我一一道来

2.正文#

裁判文书网的反爬主要分为两部分,第一部分是请求列表页的data内有三个加密的参数:

(1).pageid

(2).ciphertext

(3).__RequestVerificationToken

这三个参数的加密方式其实很容易就能找到,通过chrome的network的全局搜索就可以找到这三个参数加密的js代码,只需要拷贝下来之后使用pyexecjs模块来运行这些js其实就可以获得这三个加密的参数了,然后放到post请求的data内去请求就可以返回数据了。当然如果就这么简单的话,这个政府网站就不值得还在这里记录一下了,因为这个网站最难的反爬在于当请求成功后的页面返回的数据,其实是一个混淆js的。这个地方的反爬用到了瑞数加载的js,我们需要先把这个js混淆先理通然后将获取到的新cookie再次的请求本来的连接,才可以获得想要的数据。当是好多人都是卡在了瑞数这个地方。

先将前三个参数加密的js截图贴在这里,供大家进行参考:

这里需要注意var enc 这里使用了des3加密的方法进行加密,可以找到这个方法的js,然后调用就可以了。这样就很容易获得三个加密的参数的值。瑞数请求部分需要自己进行研究。

3.结尾#

     内容虽然不多,主要是想分享破解这个网站的思路,自己也是研究了好多天一点一点发现的。希望对大家有所帮助 

###9.2最后次更新,现在的数据已经抓取了很多了,给大家看下截图#

posted @   博二爷  阅读(1590)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
历史上的今天:
2019-10-17 C#控制台输入输出
点击右上角即可分享
微信分享提示
CONTENTS