Python爬虫 - 随笔分类 - 莫贞俊晗

jadx-gui-1.4.4 反编译工具使用教程

摘要：###文章前言 JDAX-GUI 反编译工具下载使用以及相关技术介绍现在反编译一个未加固的APP，一般来说有两种方式。一种是用Jadx-gui，优点是一个软件就帮你将所有活给干了，缺点是如果遇到较大的APP（代码加起来超过30mb的）,这个软件的索引功能基本会失效，需要用Android Stud 阅读全文

posted @ 2022-10-14 15:57 莫贞俊晗阅读(11358) 评论(0) 推荐(1) 编辑

快手/快手小店滑块验证码逆向分析

摘要：url = 'https://captcha.zt.kuaishou.com/rest/zt/captcha/sliding/kSecretApiVerify' ###开始JS逆向 c.ai(“0x31”) 的值是验证接口中，加密前的verifyParam。 c.a[i(“0x31”)] 等同于 u 阅读全文

posted @ 2022-09-06 13:25 莫贞俊晗阅读(1204) 评论(0) 推荐(0) 编辑

python爬取抖音直播数据评论

摘要：pip3 install websockets 主要用到的API有： websockets.connect() websockets.send() websockets.recv() server.py，用于搭建webscocket服务器，在本地8888端口启动，接收到消息后会在原消息前加上I go 阅读全文

posted @ 2022-09-05 23:02 莫贞俊晗阅读(1535) 评论(1) 推荐(0) 编辑

Python cv2 滑块验证码

摘要：#!/usr/bin/env python # -*- coding:utf-8 -*- import cv2 class SlideCrack(object): def __init__(self, gap, bg): """ init code :param gap: 缺口图片 :param b 阅读全文

posted @ 2022-07-31 23:12 莫贞俊晗阅读(175) 评论(0) 推荐(0) 编辑

python 识别滑块验证码

摘要：# -*- coding: utf-8 -*- import io import json from pathlib import Path from PIL import Image import base64 import cv2 import time import requests sess 阅读全文

posted @ 2022-07-31 23:02 莫贞俊晗阅读(564) 评论(0) 推荐(0) 编辑

Python for循环中添加字典到列表，结果列表中全是循环中的最后一个值

摘要：###案例1 item1 = {} gender_areas = [] for ge in gender: # 男性 man = ge.split("：")[0].strip() or '' # print("man",man) # 男性比例 man_percent = ge.split("：")[ 阅读全文

posted @ 2022-07-16 18:30 莫贞俊晗阅读(390) 评论(0) 推荐(0) 编辑

python 钉钉发邮件报警设置

摘要：###1.异常信息内容编辑 # 异常信息发送至钉钉报警 if res.get("msg")=="查询失败": print("查询失败") XiaoTian.send_msg_to_dingding(f'hobby策略{platforms_Chinese[plat]}异常', name='hobby_ 阅读全文

posted @ 2022-01-13 14:00 莫贞俊晗阅读(145) 评论(0) 推荐(0) 编辑

json.dump后面的参数 separators的含义

摘要：如果遇到参数请求没有返回结果，很可能是参数格式问题，可以用以下方法处理 data=json.dumps(params, separators=()) ###例1 import json json.dumps([1,2,3,{'4': 5, '6': 7}], separators=(',',':') 阅读全文

posted @ 2021-09-10 17:19 莫贞俊晗阅读(1123) 评论(0) 推荐(0) 编辑

json.decoder.JSONDecodeError

摘要：###1 读取json文件报错 https://blog.csdn.net/qq_32526087/article/details/106317051 json.decoder.JSONDecodeError: Invalid control character at: line 1 column 阅读全文

posted @ 2021-09-08 11:33 莫贞俊晗阅读(465) 评论(0) 推荐(0) 编辑

python爬虫用redis去重多种方法

摘要：什么是增量爬虫爬虫过程中，常常要对目标网站的新数据进行抓取，遇到已经爬过的网页需要进行过滤。本文介绍用redis数据库的高效去重。把所有爬过的url都放在redis中，以后每次爬取链接之前，先把url添加进去，如果能添加进去，说明是没爬过的，如果添加不进去，说明该链接有爬取过。 ###方法1 普阅读全文

posted @ 2021-08-26 18:10 莫贞俊晗阅读(548) 评论(0) 推荐(0) 编辑

python 高性能异步爬虫线程＆线程池

摘要：###爬虫本质其实爬虫的本质就是Client发请求批量获取Server的响应数据，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：对于单线程下串行N个任务，并不完全等同于低效，如果这N个任务都是纯计算的任务，那么该线阅读全文

posted @ 2021-07-08 16:32 莫贞俊晗阅读(413) 评论(0) 推荐(0) 编辑

python 正则去除末尾字符串

摘要：###正则去除末尾字符串 import re pv = "3724:32263930;3412:36033617;", pvName = "尺码:XXL;颜色:黑色;", pv = re.sub(";$", "", pv) pvName = re.sub(";$", "", pvName) 返回结果阅读全文

posted @ 2021-04-21 14:05 莫贞俊晗阅读(939) 评论(0) 推荐(0) 编辑

Windows 安装mitmproxy 抓包基础教程

摘要：mitmproxy是一个使用python编写的中间人代理工具，跟Fiddle、Charles等等的抓包工具是差不多的，同样可以用于拦截、修改、保存http/https请求。比起Fiddle、Charles，mitmproxy有一个最大的特点是支持python自定义脚本。安装mitmproxy工具的阅读全文

posted @ 2021-03-11 16:45 莫贞俊晗阅读(2049) 评论(0) 推荐(0) 编辑

Python 实现字典操作详解

摘要：###一、字典中常见方法列表方法描述 D.clear() #移除D中的所有项 D.copy() #返回D的副本 D.fromkeys(seq[,val]) #返回从seq中获得的键和被设置为val的值的字典。可做类方法调用 D.get(key[,default]) #如果D[key]存在，将其返阅读全文

posted @ 2020-12-23 15:28 莫贞俊晗阅读(846) 评论(0) 推荐(0) 编辑

python 爬取图片路径规则并保存本地

摘要：###爬取图片路径规则并保存本地 import re import requests temp = 'http://wufazhuce.com/one/' count = 1 for i in range(14, 1580): url = temp + str(i) page = requests. 阅读全文

posted @ 2020-11-18 11:44 莫贞俊晗阅读(667) 评论(0) 推荐(0) 编辑

python 爬取京东商品评分

摘要：###爬取京东商品评分 import requests import json def jd(url): id = url.replace('https://item.jd.com/', '').replace('.html', '') params = { 'callback': 'fetchJS 阅读全文

posted @ 2020-07-09 17:29 莫贞俊晗阅读(449) 评论(0) 推荐(0) 编辑

python爬虫关于Max retries exceeded with url 的错误

摘要：爬取安逸花 https://vayh.msxf.com/ 时出现这种错误，总结如下： ###1.https连接太多没有关闭导致的433，解决方法： import requests requests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数 s = requests. 阅读全文

posted @ 2020-06-30 17:59 莫贞俊晗阅读(3866) 评论(1) 推荐(1) 编辑

python调用接口查询顺丰单号物流信息

摘要：###爱查快递查询顺丰单号物流信息 Query.sign = function() { function t(t) { var e, i, s, a, r = -1; for (e = 0, s = t.length; s > e; e += 1) { for (a = 255 & (r ^ 阅读全文

posted @ 2020-06-24 10:54 莫贞俊晗阅读(1050) 评论(0) 推荐(0) 编辑

python下载图片并保存本地

摘要：正则图片链接并下载 ####示例1 import requests import re url = 'http://www.nipic.com/photo/jingguan/ziran/index.html' response = requests.get(url).text # print(res 阅读全文

posted @ 2020-06-06 12:41 莫贞俊晗阅读(2534) 评论(0) 推荐(0) 编辑

Python3爬虫连续获取Cookies的方法

摘要：第一种获取Cookies的方法第二种获取Cookies的方法第三种获取Cookies的方法阅读全文

posted @ 2020-05-11 14:39 莫贞俊晗阅读(1210) 评论(0) 推荐(0) 编辑

莫贞俊晗

随笔分类 - Python爬虫

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论