随笔分类 -  Python爬虫

摘要:###文章前言 JDAX-GUI 反编译工具下载使用以及相关技术介绍 现在反编译一个未加固的APP,一般来说有两种方式。 一种是用Jadx-gui,优点是一个软件就帮你将所有活给干了,缺点是如果遇到较大的APP(代码加起来超过30mb的),这个软件的索引功能基本会失效,需要用Android Stud 阅读全文
posted @ 2022-10-14 15:57 莫贞俊晗 阅读(11358) 评论(0) 推荐(1) 编辑
摘要:url = 'https://captcha.zt.kuaishou.com/rest/zt/captcha/sliding/kSecretApiVerify' ###开始JS逆向 c.ai(“0x31”) 的值是验证接口中,加密前的verifyParam。 c.a[i(“0x31”)] 等同于 u 阅读全文
posted @ 2022-09-06 13:25 莫贞俊晗 阅读(1204) 评论(0) 推荐(0) 编辑
摘要:pip3 install websockets 主要用到的API有: websockets.connect() websockets.send() websockets.recv() server.py,用于搭建webscocket服务器,在本地8888端口启动,接收到消息后会在原消息前加上I go 阅读全文
posted @ 2022-09-05 23:02 莫贞俊晗 阅读(1535) 评论(1) 推荐(0) 编辑
摘要:#!/usr/bin/env python # -*- coding:utf-8 -*- import cv2 class SlideCrack(object): def __init__(self, gap, bg): """ init code :param gap: 缺口图片 :param b 阅读全文
posted @ 2022-07-31 23:12 莫贞俊晗 阅读(175) 评论(0) 推荐(0) 编辑
摘要:# -*- coding: utf-8 -*- import io import json from pathlib import Path from PIL import Image import base64 import cv2 import time import requests sess 阅读全文
posted @ 2022-07-31 23:02 莫贞俊晗 阅读(564) 评论(0) 推荐(0) 编辑
摘要:###案例1 item1 = {} gender_areas = [] for ge in gender: # 男性 man = ge.split(":")[0].strip() or '' # print("man",man) # 男性比例 man_percent = ge.split(":")[ 阅读全文
posted @ 2022-07-16 18:30 莫贞俊晗 阅读(390) 评论(0) 推荐(0) 编辑
摘要:###1.异常信息内容编辑 # 异常信息发送至钉钉报警 if res.get("msg")=="查询失败": print("查询失败") XiaoTian.send_msg_to_dingding(f'hobby策略{platforms_Chinese[plat]}异常', name='hobby_ 阅读全文
posted @ 2022-01-13 14:00 莫贞俊晗 阅读(145) 评论(0) 推荐(0) 编辑
摘要:如果遇到参数请求没有返回结果,很可能是参数格式问题,可以用以下方法处理 data=json.dumps(params, separators=()) ###例1 import json json.dumps([1,2,3,{'4': 5, '6': 7}], separators=(',',':') 阅读全文
posted @ 2021-09-10 17:19 莫贞俊晗 阅读(1123) 评论(0) 推荐(0) 编辑
摘要:###1 读取json文件报错 https://blog.csdn.net/qq_32526087/article/details/106317051 json.decoder.JSONDecodeError: Invalid control character at: line 1 column 阅读全文
posted @ 2021-09-08 11:33 莫贞俊晗 阅读(465) 评论(0) 推荐(0) 编辑
摘要:什么是增量爬虫 爬虫过程中,常常要对目标网站的新数据进行抓取,遇到已经爬过的网页需要进行过滤。本文介绍用redis数据库的高效去重。 把所有爬过的url都放在redis中,以后每次爬取链接之前,先把url添加进去,如果能添加进去,说明是没爬过的,如果添加不进去,说明该链接有爬取过。 ###方法1 普 阅读全文
posted @ 2021-08-26 18:10 莫贞俊晗 阅读(548) 评论(0) 推荐(0) 编辑
摘要:###爬虫本质 其实爬虫的本质就是Client发请求批量获取Server的响应数据,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,如果这N个任务都是纯计算的任务,那么该线 阅读全文
posted @ 2021-07-08 16:32 莫贞俊晗 阅读(413) 评论(0) 推荐(0) 编辑
摘要:###正则去除末尾字符串 import re pv = "3724:32263930;3412:36033617;", pvName = "尺码:XXL;颜色:黑色;", pv = re.sub(";$", "", pv) pvName = re.sub(";$", "", pvName) 返回结果 阅读全文
posted @ 2021-04-21 14:05 莫贞俊晗 阅读(939) 评论(0) 推荐(0) 编辑
摘要:mitmproxy是一个使用python编写的中间人代理工具,跟Fiddle、Charles等等的抓包工具是差不多的,同样可以用于拦截、修改、保存http/https请求。比起Fiddle、Charles,mitmproxy有一个最大的特点是支持python自定义脚本。 安装mitmproxy工具的 阅读全文
posted @ 2021-03-11 16:45 莫贞俊晗 阅读(2049) 评论(0) 推荐(0) 编辑
摘要:###一、字典中常见方法列表 方法 描述 D.clear() #移除D中的所有项 D.copy() #返回D的副本 D.fromkeys(seq[,val]) #返回从seq中获得的键和被设置为val的值的字典。可做类方法调用 D.get(key[,default]) #如果D[key]存在,将其返 阅读全文
posted @ 2020-12-23 15:28 莫贞俊晗 阅读(846) 评论(0) 推荐(0) 编辑
摘要:###爬取图片路径规则并保存本地 import re import requests temp = 'http://wufazhuce.com/one/' count = 1 for i in range(14, 1580): url = temp + str(i) page = requests. 阅读全文
posted @ 2020-11-18 11:44 莫贞俊晗 阅读(667) 评论(0) 推荐(0) 编辑
摘要:###爬取京东商品评分 import requests import json def jd(url): id = url.replace('https://item.jd.com/', '').replace('.html', '') params = { 'callback': 'fetchJS 阅读全文
posted @ 2020-07-09 17:29 莫贞俊晗 阅读(449) 评论(0) 推荐(0) 编辑
摘要:爬取安逸花 https://vayh.msxf.com/ 时出现这种错误,总结如下: ###1.https连接太多没有关闭导致的433,解决方法: import requests requests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数 s = requests. 阅读全文
posted @ 2020-06-30 17:59 莫贞俊晗 阅读(3866) 评论(1) 推荐(1) 编辑
摘要:###爱查快递 查询 顺丰单号 物流信息 Query.sign = function() { function t(t) { var e, i, s, a, r = -1; for (e = 0, s = t.length; s > e; e += 1) { for (a = 255 & (r ^ 阅读全文
posted @ 2020-06-24 10:54 莫贞俊晗 阅读(1050) 评论(0) 推荐(0) 编辑
摘要:正则图片链接并下载 ####示例1 import requests import re url = 'http://www.nipic.com/photo/jingguan/ziran/index.html' response = requests.get(url).text # print(res 阅读全文
posted @ 2020-06-06 12:41 莫贞俊晗 阅读(2534) 评论(0) 推荐(0) 编辑
摘要:第一种获取Cookies的方法 第二种获取Cookies的方法 第三种获取Cookies的方法 阅读全文
posted @ 2020-05-11 14:39 莫贞俊晗 阅读(1210) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示