摘要:
由于最近一直没有一个练手的平台,苦苦寻找好久,找到了猿人学平台,其实我很早就知道这个平台,他们搞爬虫大赛的时候我就看到了,只是没有仔细去研究,都只是大概的看了下,最近有空就特意的分析了下,还真的有点东西,至少我觉得比较有意思
分析
先看题:
然后查看翻页,这个接口不难找:
但是看提交的参数: 阅读全文
摘要:
本次也是记录一个偶然发现的小问题,有关js逆向和app逆向的系列文章,放一放,有空再系统的整理成文发布了。
这个问题就很骚了,废话不多说,直接情景再现
目标网站:
aHR0cHM6Ly93d3cubW5kLmdvdi50dy9QdWJsaXNoTVBCb29rLmFzcHg/JnRpdGxlPSVFOCVCQiU4RCVFNCVCQSU4QiVFNSU4OCU4QSVFNyU4OSVBOSZTZWxlY3RTdHlsZT0lRTglQkIlOEQlRTQlQkElOEIlRTYlOUMl 阅读全文
摘要:
引言
现在是数据为王的时代,很多平台,不管国内还是国外都有各种防护,保护自己的数据,所以你会发现,最近几年,要用个东西,要查个东西,变得越来越不再依赖百度之类的搜索引擎了,为什么? 阅读全文
摘要:
前言
本篇文章很短,就是记录一个偶然遇到的问题
问题复现
是这样的,在用xpath解析某网站的时候,由于网站数据格式是普通的html,而非json字符串,所以只能解析DOM对象,有的能用正则表达式的我都尽量用正则表达式了,没法用正则的我都用beautifulsoup库或者pyquery了,但是没法,通用型还是没法跟xpath比,而且我已经写好一版,在有限的时间改的话就很烦了
不多说,先看问题 阅读全文
摘要:
前言
本次针对某个翻译平台的js逆向,同时并不存在恶意,只是本着学习研究为主,同时,在分析期间并未高频次测试导致该平台服务器不可用
附言:
看出是哪个平台的朋友请不要评论或者说明是哪个网站,谢谢,为了安全起见哈!
分析
分析,找到接口
接口就是它了
请求参数有这些:
返回结果:
我接着又翻译了下【main】,请求参数是:
好, 阅读全文
摘要:
前言
本次针对某个翻译平台的js逆向,同时并不存在恶意,只是本着学习研究为主,同时,在分析期间并未高频次测试导致该平台服务器不可用
观察
首先直接体验下:
抓包查看请求的接口:
然后请求参数有这些:
我多翻译几次之后,发现,就有4个值是一直会变得,其他不会变,就 lts,bv,salt,sign,就这四个,然后i就是我们输入的待翻译的字段 阅读全文
摘要:
大概意思就是说,启动脚本的时候,这个Q脚本会检测同级目录下有没有websockify文件相关,如果没有的话,就要去github拉取代码,这个是我们脚本第一次启动的时候会作的操作,之后就不会了,而我刚才魔改的哪个token_plugins.py文件就是拉取的websockify仓库里的,也就是说,你如果中途迁移了项目,或者丢失这个文件,或者你不小心把这个we 阅读全文
摘要:
# coding=utf-8
import time
from selenium import webdriver
chrome_capabilities = {
"browserName": "chrome",
"version": "",
"platform": "ANY",
"javascriptEnabled": True,
'applicationName': 'test1' # 这里指定节点名启动,如果不指定hub则随机选择空闲的node启动
}
browser = webdriver.Remote("http://<你的服务端ip>:<你刚才映射的端口>/wd/hub", desired_capabilities=chrome_capabilities)
print(123123123, browser)
browser.get("http://www.baidu.com")
print(browser.title)
time.sleep(5)
browser.get_screenshot_as_file("8.png")
browser 阅读全文
摘要:
我觉得检测【反爬系统】的宗旨应该如下:
有账号的:
现在的大数据时代,各个平台争抢的就是用户数据,用户数据怎么来,就是账号注册来的,在注册的时候设置的一些问题,不管你是否如实填写,
都会对你这个账号做用户画像,提取该账号的喜欢和不喜欢,加上再获取通讯录权限,获取手机推送权限,然后每天一点点的搜集数据,到了一定
程度后,开始对这个账号进行重组信息,匹配出相似数据推送给你。
那么,也就是,作为一个正常人对于平台的价值就是获取数据。
那作为爬虫,可以伪造一个人设,然后这个账号就尽量 阅读全文
摘要:
偶然发现的一个网站,需要网址的私信,不是说玩什么套路,而是毕竟不能明目张胆的把别人网址发出来
分析
打开浏览器访问,目前是正常访问:
然后它的cookie是这些: 阅读全文