吉阿吉

2021年4月26日

爬虫验证码处理

摘要: 一、爬虫过程中尽可能规避验证码,查找第三方接口. 二、简单验证码。第三方平台:云打码。 阅读全文

posted @ 2021-04-26 19:15 吉阿吉 阅读(137) 评论(0) 推荐(0) 编辑

猫眼电影爬虫

摘要: 一、字体加密 阅读全文

posted @ 2021-04-26 16:40 吉阿吉 阅读(62) 评论(0) 推荐(0) 编辑

大众点评爬虫

摘要: 一、css加密,通过css样式去代替某个字符, 阅读全文

posted @ 2021-04-26 15:57 吉阿吉 阅读(117) 评论(0) 推荐(0) 编辑

2021年4月24日

Gerapy

摘要: 一、创建新项目 gerapy init 二、对数据库初始化 gerapy migrate 三、启动gerapy服务 gerapy runserver 四、gerapy createsuperuser 创建用户名密码 阅读全文

posted @ 2021-04-24 23:44 吉阿吉 阅读(258) 评论(0) 推荐(0) 编辑

2021年4月23日

完美世界RSA加密JS逆向

摘要: 一、登录抓包,滑动验证后生成的参数,最新官网已取消 全局搜索password=,password:,password :,password等词,排除无选中资源包,css文件,标签资源包,得到如下疑似加密代码(encrypt): 从获取公钥可以初步断定为rsa加密,最终JS加密数据包: 阅读全文

posted @ 2021-04-23 19:38 吉阿吉 阅读(186) 评论(0) 推荐(0) 编辑

2021年4月21日

微信公众平台JS逆向

摘要: 一、md5加密后的数据一般为16进制,32位,如下可初步断定为md5加密。 二、全局搜索pwd .css文件直接忽略 阅读全文

posted @ 2021-04-21 01:09 吉阿吉 阅读(187) 评论(0) 推荐(0) 编辑

2021年4月20日

异步redis

摘要: 数据库的链接,断开及操作都是网络IO pip install aioredis 阅读全文

posted @ 2021-04-20 23:58 吉阿吉 阅读(29) 评论(0) 推荐(0) 编辑

京东爬虫

摘要: 总体采用广度优先策略 一、分析分类信息URL: https://dc.3.cn/category/get 阅读全文

posted @ 2021-04-20 21:28 吉阿吉 阅读(223) 评论(0) 推荐(0) 编辑

代理池项目

摘要: 一、代理池概述 免费代理不稳定,通常只有10%可用,便宜收费代理也只有30%-50%的可用,只有代理IP提供商可提供高可用的代理。(智连HTTP) 五、代理池工具模块 1.日志模块,日志代码项目之间可以复用 import sysimport loggingLOG_LEVEL=logging.INFO 阅读全文

posted @ 2021-04-20 21:10 吉阿吉 阅读(86) 评论(0) 推荐(0) 编辑

国家企业信用公告系统爬虫

摘要: 一、直接请求报错 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <521 http://www.gsxt.gov.cn/corp-query-entprise-info-xxgg-100000.html>: HTTP sta 阅读全文

posted @ 2021-04-20 15:31 吉阿吉 阅读(634) 评论(0) 推荐(0) 编辑

导航