随笔分类 - python高级应用
Python的高级运用
摘要:然后hyper库的开发者,如下链接回复:
https://github.com/python-hyper/h11/issues/113
大概意思是这个不是一个问题,而是http请求的严格性判断问题,请求头的协议,按国际标准,是不能出现 “[Cache-Control]” 这种带有特殊符号作为响应头的键名的,所以报错
而requests却可以,或许是因为requests的校验不严格,直接就放过了:
阅读全文
摘要:以后文章质量相对较高的都只在微信公众号(编角料)发布了,不再在博客园发布,因为发布的文章,老是被抄袭,维权麻烦,微信公众号相对好一点
公众号:编角料
阅读全文
摘要:言
废话不多说,直接干,再来猿人学系列,第十九题
分析
看了下,没有加密参数:
然后拿着接口直接请求:
有结果的,不会吧,这么简单?
阅读全文
摘要:from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.ssl_ import create_urllib3_context
import requests
import random
ORIGIN_CIPHERS = ('ECDH+AESGCM:DH+AESGCM:ECDH+AES256:DH+AES256:ECDH+AES128:DH+AES:ECDH+HIGH:'
'DH+HIGH:ECDH+3DES:DH+3DES:RSA+AESGCM:RSA+AES:RSA+HIGH:RSA+3DES')
阅读全文
摘要:续干17题,就是个http2.0协议,有关这个协议的,我之前就出过相关的文章:python爬虫 - 爬虫之针对http2.0的某网站爬取
代码
所以,就不多比比了,直接上代码:
import httpx
headers = {
"authority": "match.yuanrenxue.com",
'cookie': 'sessionid=换成你的sessionid',
"sec-ch-ua-mobile": "?0",
"user-agent": "yuanrenxue.project",
阅读全文
摘要:好久没有写猿人学的分析了,今天来分析一波
打开网址:
同样的,也很轻易的拿到接口,
然后这个接口里的请求参数又是迷人的m,m就是我们的目标了
分析
老规矩,搜索:
搜一堆出来,感觉都不太靠谱
那咋办?先看特征,看这个长度是多少的,卧槽,这个长度有点少见了
点调用栈看看:
看到这个就很可疑了
为啥这么说,dispatch分发请求,匿名函数操作,实际的request,所以,关键的逻辑一定在这个request或者匿名函数anonymous前后,再看js名字就叫webpack,那就是webpack打包的,那前面才分析过webpack的东西,不用怕,点进去看:
进来都到这里,打上断点,翻页看看,这不就找到了吗,看着webpack唬人,感觉没两样啊
阅读全文
摘要:前言
话不多说,来,干吧,今天的网站是:
aHR0c{防查找,删除我,包括花括号}HM6Ly9tLmR{防查找,删除我,包括花括号}pYW5waW{防查找,删除我,包括花括号}5nLmNvbS8=
打开之后,点击“美食”栏,然后会进入一个列表页
今天的目标就是需要搞定接口里的_token,和logan_session_token两个参数
阅读全文
摘要:前言
同样的,接上一篇 python爬虫 - js逆向之woff字体反爬破解 ,而且也是同一个站的数据,只是是不同的反爬
网址:
aHR0cDovL3{防查找,删除我,包括花括号}d3dy5kaWFuc{防查找,删除我,包括花括号}GluZy5jb20vcmV2aWV3L{防查找,删除我,包括花括号}zEwMDM1NDgxNjI=
分析
打开网站:
阅读全文
摘要:本篇博文的主题就是处理字体反爬的,其实这种网上已经很多了,那为什么我还要写呢?因为无聊啊,最近是真没啥事,并且我看了下,还是有点难度的,然后这个字体反爬系列会出两到三篇博文,针对市面上主流的字体反爬,一一讲清楚
不多bb,先看目标站
aHR0cDo{防查找,删除我,包括花括号}vL3d3dy5kaWFucGluZy5jb20vbW{防查找,删除我,包括花括号}VtYmVyLzc5Mzk5NTky{防查找,删除我,包括花括号}L3Jldmlld3M=
分析
阅读全文
摘要:之前在分析某网站时也说过一些,python爬虫 - js逆向之取巧秒解webpack打包的加密参数
不过,可能还是有些朋友不太理解怎么找的,你怎么就知道找到那个main.js文件呢?所以,肯定是有规律的,以下就是用实际的案例介绍规律
以下内容转自公众号 “k哥爬虫”,原帖:点我
声明
本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除!
逆向目标
阅读全文
摘要:的分析对象是这个:aHR0cHM6Ly9tLmN{防查找,去掉我,包括大括号}0eXVuLmNuL3dhc{防查找,去掉我,包括大括号}C9tYWluL2F1dGgv{防查找,去掉我,包括大括号}bG9naW4=
阅读全文
摘要:在我们要把那个生成sign的逻辑拿出来用下,怎么用呢?回到上面这个关键的有sign字段的那一步:
var o = (null === (n = window.byted_acrawler) || void 0 === n ? void 0 : null === (a = n.sign) || void 0 === a ? void 0 : a.call(n, i)) || "";
这个懂点js的都不陌生,我们拆开来看:
先看最外层,最外层的括号,如果括号里没有值,那就给o一个空字符串
阅读全文
摘要:1.我他妈,化学早忘干净了
2.这也不会啊
3.不好意思,条件反射,我以为是问答题
4.到底哪个对着我的
5.我看不出哪里有bug
阅读全文
摘要:前言
以下是看了鱼哥的公众号"咸鱼学python",和"网虫spider" 之后,加上一些自己的经验,总结出以下的js逆向的经验。看过《误杀》吗,里面有句话就是:当你看过1000部以上的电影,这世界上压根没有什么离奇的事情。
所以多看别人的分享案例,保持学习的状态,你可以不用自己去分析,但是一定要学习别人遇到问题时的分析思路
此篇博文会一直更新,把web端的爬虫经验分析够覆盖时下主流
阅读全文
摘要:这段的意思就是,先记录一个时间before,然后启动debugger,此时就是上面我们已经跳过debugger那里,然后再生成一个时间after,用这两个时间相减,如果大于50,它就任务你还是在尝试调试,所以仍然出现同样的提示
整段代码就是这样,那么它既然检测那么多,那这样,我们打开调试窗口之后,点这个:
让调试窗口作为一个单独页面窗口,就可以规避掉上面的好多层检测,同时刚才的never pasue here也继续保持,刷新页面:
网址终于正常显示,然后就可以进行下面的接口分析了
而其实,你还有很多方法,比如直接hook,把里面那个debugflag改为false之类的,或者直接在控制台改制,或者用浏览器插件控制改值,或者用reres插件直接把相关的js替换了,方法很多,这里就不一一展示了
阅读全文
摘要:前言
不多说啊,继续猿人学的
分析
打开网站,然后接口也是很轻易的就拿到了
阅读全文
摘要:前言
不多说,继续猿人学的
分析
打开网站:
然后看到
关键点
python代码实现
结语
阅读全文
摘要:前言
继续猿人学的题
分析
打开网站:
直接翻页找接口
根据之前题的分析得知,肯定也是3和3?page=xx的是数据接口了,那么看下这个接口里的请求参数,发现就一个get请求,也没有请求参数,只有一个cookie
看到cookie是sessionid的,有经验的朋友应该知道这个是服务端生成的,有的必须要带上,有的可以不用带上,我们先不带上试试:
卧槽,返回了一段js,这不对啊,浏览器里是没有的,那我们带上js看看,取消cookie的注释:
阅读全文
摘要:这篇跟上一篇很像,而且他的端口显示也很类似,是的,它也是一个国外的代理网站
分析
打开网站查看:
发现它的的端口和之前的网站一样,不是直接显示的,那么用SmallProxy这个关键词搜索下在哪,很快就找到了下面这个:
阅读全文
摘要:言
这次这个网站很巧,也是一个代理网站,不过这次不是我那老朋友给的了,是我自己偶然找到的,而且也是端口加密的,跟之前某篇文章差不多。
想源网址的,为了避免一些不必要的麻烦,私我给地址吧(直接在博客园私信,不用去其他地方,免得误会我是为了推广拉新啥的)
这个网站虽然是
阅读全文