随笔分类 - Python爬虫
摘要:###文章前言 JDAX-GUI 反编译工具下载使用以及相关技术介绍 现在反编译一个未加固的APP,一般来说有两种方式。 一种是用Jadx-gui,优点是一个软件就帮你将所有活给干了,缺点是如果遇到较大的APP(代码加起来超过30mb的),这个软件的索引功能基本会失效,需要用Android Stud
阅读全文
摘要:url = 'https://captcha.zt.kuaishou.com/rest/zt/captcha/sliding/kSecretApiVerify' ###开始JS逆向 c.ai(“0x31”) 的值是验证接口中,加密前的verifyParam。 c.a[i(“0x31”)] 等同于 u
阅读全文
摘要:pip3 install websockets 主要用到的API有: websockets.connect() websockets.send() websockets.recv() server.py,用于搭建webscocket服务器,在本地8888端口启动,接收到消息后会在原消息前加上I go
阅读全文
摘要:#!/usr/bin/env python # -*- coding:utf-8 -*- import cv2 class SlideCrack(object): def __init__(self, gap, bg): """ init code :param gap: 缺口图片 :param b
阅读全文
摘要:# -*- coding: utf-8 -*- import io import json from pathlib import Path from PIL import Image import base64 import cv2 import time import requests sess
阅读全文
摘要:###案例1 item1 = {} gender_areas = [] for ge in gender: # 男性 man = ge.split(":")[0].strip() or '' # print("man",man) # 男性比例 man_percent = ge.split(":")[
阅读全文
摘要:###1.异常信息内容编辑 # 异常信息发送至钉钉报警 if res.get("msg")=="查询失败": print("查询失败") XiaoTian.send_msg_to_dingding(f'hobby策略{platforms_Chinese[plat]}异常', name='hobby_
阅读全文
摘要:如果遇到参数请求没有返回结果,很可能是参数格式问题,可以用以下方法处理 data=json.dumps(params, separators=()) ###例1 import json json.dumps([1,2,3,{'4': 5, '6': 7}], separators=(',',':')
阅读全文
摘要:###1 读取json文件报错 https://blog.csdn.net/qq_32526087/article/details/106317051 json.decoder.JSONDecodeError: Invalid control character at: line 1 column
阅读全文
摘要:什么是增量爬虫 爬虫过程中,常常要对目标网站的新数据进行抓取,遇到已经爬过的网页需要进行过滤。本文介绍用redis数据库的高效去重。 把所有爬过的url都放在redis中,以后每次爬取链接之前,先把url添加进去,如果能添加进去,说明是没爬过的,如果添加不进去,说明该链接有爬取过。 ###方法1 普
阅读全文
摘要:###爬虫本质 其实爬虫的本质就是Client发请求批量获取Server的响应数据,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,如果这N个任务都是纯计算的任务,那么该线
阅读全文
摘要:###正则去除末尾字符串 import re pv = "3724:32263930;3412:36033617;", pvName = "尺码:XXL;颜色:黑色;", pv = re.sub(";$", "", pv) pvName = re.sub(";$", "", pvName) 返回结果
阅读全文
摘要:mitmproxy是一个使用python编写的中间人代理工具,跟Fiddle、Charles等等的抓包工具是差不多的,同样可以用于拦截、修改、保存http/https请求。比起Fiddle、Charles,mitmproxy有一个最大的特点是支持python自定义脚本。 安装mitmproxy工具的
阅读全文
摘要:###一、字典中常见方法列表 方法 描述 D.clear() #移除D中的所有项 D.copy() #返回D的副本 D.fromkeys(seq[,val]) #返回从seq中获得的键和被设置为val的值的字典。可做类方法调用 D.get(key[,default]) #如果D[key]存在,将其返
阅读全文
摘要:###爬取图片路径规则并保存本地 import re import requests temp = 'http://wufazhuce.com/one/' count = 1 for i in range(14, 1580): url = temp + str(i) page = requests.
阅读全文
摘要:###爬取京东商品评分 import requests import json def jd(url): id = url.replace('https://item.jd.com/', '').replace('.html', '') params = { 'callback': 'fetchJS
阅读全文
摘要:爬取安逸花 https://vayh.msxf.com/ 时出现这种错误,总结如下: ###1.https连接太多没有关闭导致的433,解决方法: import requests requests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数 s = requests.
阅读全文
摘要:###爱查快递 查询 顺丰单号 物流信息 Query.sign = function() { function t(t) { var e, i, s, a, r = -1; for (e = 0, s = t.length; s > e; e += 1) { for (a = 255 & (r ^
阅读全文
摘要:正则图片链接并下载 ####示例1 import requests import re url = 'http://www.nipic.com/photo/jingguan/ziran/index.html' response = requests.get(url).text # print(res
阅读全文
摘要:第一种获取Cookies的方法 第二种获取Cookies的方法 第三种获取Cookies的方法
阅读全文