02 2023 档案

摘要:完美世界逆向分析 url:https://passport.wanmei.com/login?location=L3NhZmUv 定位到正确的断点位置 进行js改写操作 断点代码的关键字:setPublicKey,encrpt 通过这两个关键字确定该算法为非对称秘钥加密算法! 注意: e.setPu 阅读全文 »
posted @ 2023-02-25 13:19 Chimengmeng 阅读(75) 评论(0) 推荐(0) 编辑
摘要:STEAM逆向分析 url:https://store.steampowered.com/login/?redir=&redir_ssl=1 分析思路: 输入用户名和密码后,点击登录按钮,通过抓包工具捕获点击登录按钮后发起请求对应的相关数据包。 定位了登录的数据包: 发现只有密码是加密的,因此需要对 阅读全文 »
posted @ 2023-02-25 10:34 Chimengmeng 阅读(99) 评论(0) 推荐(0) 编辑
摘要:微信公众平台案例 注意:接下来将的内容,请忽视具体网站,重点专注逆向的分析思路! 接下来就是爬什么网站,什么数据,什么形式都统统不重要!重点是分析思路 微信公众平台案例 url:https://mp.weixin.qq.com 分析思路: 先通过抓包工具发现,密码是经过加密,并且发现密码的加密后的数 阅读全文 »
posted @ 2023-02-24 21:33 Chimengmeng 阅读(40) 评论(0) 推荐(0) 编辑
摘要:逆向前期准备 环境安装 pip install PyExecJS(自己pip安装,安装成功后,最好重启下cmd终端和pycharm,或者重启电脑) 安装node.js开发环境:安装好了之后,记得重启电脑! js改写工具 PyExecJS介绍 PyExecJS 是一个可以使用 Python 来模拟运行 阅读全文 »
posted @ 2023-02-24 21:31 Chimengmeng 阅读(44) 评论(0) 推荐(0) 编辑
摘要:js加密算法 逆向重点掌握的内容: 1.逆向的思维 2.网站逆向的分析思路和步骤 注意:重点不是放在代码中,而是分析的思路和套路(技巧) 逆向到底是什么? 通俗来讲,逆向就是处理爬虫过程中对于加密数据的破解,和一些动态变化请求参数的处理。 js常见的加密方式 加密在前端开发和爬虫中是经常遇见的。掌握 阅读全文 »
posted @ 2023-02-24 20:15 Chimengmeng 阅读(81) 评论(0) 推荐(1) 编辑
摘要:生产者消费者模式 认识生产者和消费者模式 生产者和消费者是异步爬虫中很常见的一个问题。产生数据的模块,我们称之为生产者,而处理数据的模块,就称为消费者。 例如: ​ 图片数据爬取中,解析出图片链接的操作就是在生产数据 ​ 对图片链接发起请求下载图片的操作就是在消费数据 为什么要使用生产者和消费者模式 阅读全文 »
posted @ 2023-02-24 16:47 Chimengmeng 阅读(25) 评论(0) 推荐(0) 编辑
摘要:文件操作 引言 到目前为止,我们做的一切操作,都是在内存里进行的,这样会有什么问题吗?如果一旦断电或发生意外关机了,那么你辛勤的工作成果将瞬间消失。是不是感觉事还挺大的呢?现在你是否感觉你的编程技巧还缺了点什么呢?是的,我们还缺少将数据在本地文件系统进行持久化的能力,白话讲就是文件的读写能力。 文件 阅读全文 »
posted @ 2023-02-24 12:57 Chimengmeng 阅读(28) 评论(0) 推荐(0) 编辑
摘要:xpath解析 xpath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但xpath明显比re具有优势,在网页分析上使re退居二线。 xpath 全称为XML Path Language 一种小型的查询语言 xpath的优点: 可在X 阅读全文 »
posted @ 2023-02-24 12:57 Chimengmeng 阅读(101) 评论(0) 推荐(0) 编辑
摘要:scrapy项目部署 scrapyd部署工具介绍 scrapyd是一个用于部署和运行scrapy爬虫的程序,它由 scrapy 官方提供的。它允许你通过JSON API来部署爬虫项目和控制爬虫运行。 所谓json api本质就是post请求的webapi 选择一台主机当做服务器,安装并启动 scra 阅读全文 »
posted @ 2023-02-24 09:17 Chimengmeng 阅读(44) 评论(0) 推荐(0) 编辑
摘要:场景2的实现: 数据指纹 使用详情页的url充当数据指纹即可。 创建爬虫爬虫文件: cd project_name(进入项目目录) scrapy genspider 爬虫文件的名称(自定义一个名字即可) 起始url (例如:scrapy genspider first www.xxx.com) 创建 阅读全文 »
posted @ 2023-02-22 16:21 Chimengmeng 阅读(17) 评论(0) 推荐(0) 编辑
摘要:场景1的实现: 数据指纹: 数据的唯一标识。记录表中可以不直接存储数据本身,直接存储数据指纹更好一些。 创建爬虫爬虫文件: cd project_name(进入项目目录) scrapy genspider 爬虫文件的名称(自定义一个名字即可) 起始url (例如:scrapy genspider f 阅读全文 »
posted @ 2023-02-22 15:18 Chimengmeng 阅读(42) 评论(0) 推荐(0) 编辑
摘要:Day 22 22.1:增量式爬虫 爬虫应用场景分类 通用爬虫 聚焦爬虫 功能爬虫 分布式爬虫 增量式爬虫: 用来监测网站数据更新的情况(爬取网站最新更新出来的数据)。 只是一种程序设计的思路,使用什么技术都是可以实现的。 核心: 去重。 使用一个记录表来实现数据的去重: 记录表:存储爬取过的数据的 阅读全文 »
posted @ 2023-02-22 15:03 Chimengmeng 阅读(41) 评论(0) 推荐(0) 编辑
摘要:CrawlSpider-redis分布式 分布式在日常开发中并不常用,只是一个噱头! 概念: 可以使用多台电脑搭建一个分布式机群,使得多台对电脑可以对同一个网站的数据进行联合且分布的数据爬取。 声明: 原生的scrapy框架并无法实现分布式操作!why? 多台电脑之间无法共享同一个调度器 多台电脑之 阅读全文 »
posted @ 2023-02-22 12:25 Chimengmeng 阅读(34) 评论(0) 推荐(0) 编辑
摘要:CrawlSpider(全站数据爬取) 实现网站的全站数据爬取 就是将网站中所有页码对应的页面数据进行爬取。 crawlspider其实就是scrapy封装好的一个爬虫类,通过该类提供的相关的方法和属性就可以实现全新高效形式的全站数据爬取。 使用流程: 新建一个scrapy项目 cd 项目 创建爬虫 阅读全文 »
posted @ 2023-02-22 12:05 Chimengmeng 阅读(48) 评论(0) 推荐(0) 编辑