淋哥 - 博客园

[置顶] ddddocr 点选验证码识别

摘要：直接上代码 # -*- coding: utf-8 -*- # @Author : xcl # @FILE : 1.py # @Time : 2025/2/15 7:26 # @Software : PyCharm # example.py import time import ddddocr im 阅读全文

posted @ 2025-02-17 14:26 淋哥阅读(1529) 评论(0) 推荐(0)

[置顶] python 删除pdf 图片

摘要： import os import fitz doc = fitz.open('D:\888\888\\6.pdf') imgcount = 0for page in doc: imageList = page.get_images() print(imageList) i = 0 for imgin 阅读全文

posted @ 2024-01-25 17:45 淋哥阅读(108) 评论(0) 推荐(0)

[置顶] python 做爬虫真的很慢吗？（协程并发测试）

摘要：总有人说python做爬虫速度慢，能开并发数少，至于为什么慢就是说不上来，今天就是测试一下python语言的速度和并发数量。在网络爬虫中，影响速度的有数据下载，数据解析，数据存储，最主要的影响是数据下载和数据存储，数据下载影响是网络IO，数据存储是磁盘IO，本次模拟数据下载是1s，然后数据存储直接阅读全文

posted @ 2022-08-01 18:15 淋哥阅读(911) 评论(0) 推荐(0)

[置顶] window 客户端抓包详解

摘要：互联网的数据有web，app，小程序，windows客户端等，抓取数据不能拘泥于一点，只要能搞到数据，一切都是OK。今天主要详细的介绍一下windows的抓包。 1. 下载windows客户端，安装这个就不介绍了，太简单了，不会的就别往下再去看这个教程了。 2. 安装fiddler 百度fidd 阅读全文

posted @ 2022-06-16 17:54 淋哥阅读(5457) 评论(0) 推荐(0)

[置顶] pixel xl 刷机 root 安装xposed

摘要： 1. 进入到bootloader 按着手机开机键+ 音量- 键，进入到bootloader2. 查看到已连接的设备 fastboot devices 3. 解锁 fastboot oem unlock 4. 检查是否已经解锁 fastboot oem device-info 第二行 Device u 阅读全文

posted @ 2022-01-06 14:40 淋哥阅读(1504) 评论(0) 推荐(0)

[置顶] 谷歌插件抓包 similarweb抓包

摘要：需要对谷歌插件进行网络请求分析，正常的fiddler无法抓包，研究了一番，使用浏览器代理的方式进行抓包。 1. 安装谷歌插件 2. 安装代理插件 Proxy SwitchyOmega 正常安装即可 3. 设置 Proxy SwitchyOmega ip地址和端口设置完毕后注意启动代理 5. 启动f 阅读全文

posted @ 2021-11-18 12:08 淋哥阅读(1723) 评论(0) 推荐(0)

[置顶] redis set 去重的内存问题

摘要：在编写爬虫代码的过程中，程序员会使用redis 集合进行去重，今天就测试一下redis去重需要多少内存的问题过程：我们对10w，100w，1000w 的数字进行 md5 加密，生成唯一的32位字符串，然后存入到redis集合中去，通过rdm 的内存分析占用查看redis的大小。 1. 对10w 阅读全文

posted @ 2021-07-24 17:11 淋哥阅读(717) 评论(0) 推荐(0)

[置顶] 瑞数无限debugger完美处理

摘要：打开网站会看到瑞数的无限degugger，特恶心啊魔高一尺道高一丈怎么处理呢？选中 debugger这行，然后 Edit breakpoint ，输入if 1>2 即可阅读全文

posted @ 2021-06-04 11:26 淋哥阅读(1638) 评论(0) 推荐(0)

[置顶] python 多进程数量对爬虫程序的影响

摘要： 1. 首先看一下 python 多进程的优点和缺点二：测试服务器情况： cpu是12核心，内存是128G 三：测试目的：测试目的是因为多进程切换开销大，创建进程的代价大，通过开不同的进程数量，测试是否会出现进程开的越多，爬虫的速度越慢的情况。四：测试软件条件： 1. 用10000个关键词，阅读全文

posted @ 2019-09-12 13:16 淋哥阅读(5441) 评论(0) 推荐(3)

[置顶] python 使用sort 对列表排序的性能测试

摘要：首先对一百万数据进行排序：对一千万数据进行排序：对一亿数据进行排序：阅读全文

posted @ 2019-09-01 00:20 淋哥阅读(1590) 评论(0) 推荐(0)

[置顶] 大众点评评论数据抓取反爬虫措施有css文字映射和字体库反爬虫

摘要：大众点评评论数据抓取反爬虫措施有css文字映射和字体库反爬虫大众点评的反爬虫手段有那些：封ip，封账号，字体库反爬虫，css文字映射，图形滑动验证码这个图片是滑动验证码，访问频率高的话，会出现这个滑动验证码这个图片是店铺失效或者封账号出现的提示关于大众点评 css文件映射分析：第一步：阅读全文

posted @ 2019-08-29 09:51 淋哥阅读(7116) 评论(10) 推荐(6)

[置顶] 爱奇艺登录加密字段 passwd 破解

摘要：这是一个rsa加密，并且每次加密候的数据固定不变。第一步：查看加密字段第二步：搜索加密参数第三步：打断点调试 1 2 3. 第四部：js调试工具调试第五步：源码 function c(a) { var b = f, c = b.biDivideByRadixPower(a, this.k - 阅读全文

posted @ 2019-08-29 09:17 淋哥阅读(1158) 评论(0) 推荐(0)

[置顶] 京东js加密 nloginpwd 破解

摘要：京东登录，有一个参数nloginpwd，是加密字段。第一步：浏览器抓包第二部：搜索加密字段 js 代码第三部：下断点 2. js代码： var navigator = {}; var window = {}; var Base64 = {}; var ASN1 = {}; var Hex = 阅读全文

posted @ 2019-08-28 16:53 淋哥阅读(2741) 评论(0) 推荐(0)

[置顶] python 验证码识别示例（五）简单验证码识别

摘要：今天介绍一个简单验证的识别。主要是标准的格式，没有扭曲和变现。就用 pytesseract 去识别一下。验证码地址：http://wscx.gjxfj.gov.cn/zfp/webroot/xfsxcx.html 需要识别的验证码是：因为这个验证码有干扰点，所以直接识别的效果非常不好。首先对阅读全文

posted @ 2019-08-10 23:59 淋哥阅读(1809) 评论(0) 推荐(0)

[置顶] python 验证码识别示例（二）复杂验证码识别

摘要：在这篇博文中手把手教你如何去分割验证，然后进行识别。一：下载验证码验证码分析，图片上有折线，验证码有数字，有英文字母大小写，分类的时候需要更多的样本，验证码的字母是彩色的，图片上有雪花等噪点，因此识别改验证码难度较大二：二值化和降噪：三：切割：四：分类：五：测试识别率六：总结：综阅读全文

posted @ 2018-08-10 17:55 淋哥阅读(21443) 评论(18) 推荐(4)

[置顶] python 验证码识别示例（一）某个网站验证码识别

摘要：某个招聘网站的验证码识别，过程如下一：原始验证码：二：首先对验证码进行分析，该验证码的数字颜色有变化，这个就是识别这个验证码遇到的比较难的问题，解决方法是使用PIL 中的 getpixel 方法进行变色处理，统一把非黑色的像素点变成黑色变色后的图片三：通过观察，发现该验证码有折线，需要阅读全文

posted @ 2018-08-03 18:07 淋哥阅读(43880) 评论(5) 推荐(10)

[置顶] 爬虫大规模数据采集心得和示例

摘要：本篇主要介绍网站数据非常大的采集心得 1. 什么样的数据才能称为数据量大：我觉得这个可能会因为每个人的理解不太一样，给出的定义也不相同。我认为定义一个采集网站的数据大小，不仅仅要看这个网站包括的数据量的大小，还应该包括这个网址的采集难度，采集网站的服务器承受能力，采集人员所调配的网络带宽和计算机阅读全文

posted @ 2018-08-01 11:52 淋哥阅读(4021) 评论(0) 推荐(0)

[置顶] 爬虫对自己服务器 CPU，内存和网速的影响

摘要：今天无事写一遍关于爬虫对计算机的影响，主要是给小白同学普及一下爬虫的基础知识。在我们写爬虫的时候，首先会想到开多线程，如果使用的语言是Python，很不幸，因为Python存在 GIL,在任何时候，CPU内只有一条线程在运行，但是Python的多线程也能提高爬虫的速度，并且我们用python的多线阅读全文

posted @ 2018-06-18 15:51 淋哥阅读(6437) 评论(0) 推荐(2)

[置顶] Python 爬虫实例（9）—— 搜索爬取淘宝

摘要： # coding:utf-8 import json import redis import time import requests session = requests.session() import logging.handlers import pickle import sys import re import datetime from bs4 import BeautifulS... 阅读全文

posted @ 2018-01-18 22:22 淋哥阅读(3187) 评论(0) 推荐(1)

[置顶] Python 爬虫实例（8）—— 爬取动态页面

摘要：今天使用python 和selenium爬取动态数据，主要是通过不停的更新页面，实现数据的爬取，要爬取的数据如下图源代码：阅读全文

posted @ 2018-01-08 13:31 淋哥阅读(11504) 评论(0) 推荐(0)

2025年2月14日

DrissionPage 下载文件设置文件指定下载路径

摘要： DrissionPage 下载文件设置文件指定下载路径 DrissionPage 下载文件设置文件指定下载路径 DrissionPage 下载文件设置文件指定下载路径直接上代码： from DrissionPage import ChromiumPage,ChromiumOptions # 阅读全文

posted @ 2025-02-14 17:38 淋哥阅读(594) 评论(0) 推荐(0)

2025年2月5日

我现在有三台服务器，分别是A,B,C，这三个服务器，在b服务器部署一个接口，接口是 https://cloud.tencent.com:8080/xxx/xx/xxx?ssd=dd, A 服务器请求 b服务器的接口，要求把a服务器的请求，都经过c服务器，然后再转发到a服务器，如何实现这个目标

摘要：我现在有三台服务器，分别是A,B,C，这三个服务器，在b服务器部署一个接口，接口是 https://cloud.tencent.com:8080/xxx/xx/xxx?ssd=dd, A 服务器请求 b服务器的接口，要求把a服务器的请求，都经过c服务器，然后再转发到a服务器，如何实现这个目标。为了阅读全文

posted @ 2025-02-05 10:41 淋哥阅读(106) 评论(0) 推荐(0)

2025年1月20日

"Content-Type": "multipart/form-data; boundary= multipart/form-data

摘要： multipart/form-data; boundary WebKitFormBoundaryI9jlgzsMT2lzfSLM网站： http://gooa.las.ac.cn/paperc/?#/paper?subpath=listja&qstr=%E6%96%B0%E9%97%BB { "A 阅读全文

posted @ 2025-01-20 17:25 淋哥阅读(133) 评论(0) 推荐(0)

2025年1月17日

OSError: [E050] Can't find model 'zh_core_web_sm'. It doesn't seem to be a Python package or a valid path to a data directory.

摘要： OSError: [E050] Can't find model 'zh_core_web_sm'. It doesn't seem to be a Python package or a valid path to a data directory. OSError: [E050] Can't f 阅读全文

posted @ 2025-01-17 15:13 淋哥阅读(392) 评论(0) 推荐(0)

2025年1月7日

某个知识星球 X-Signature

摘要： 1. 搜索大法，屡试不爽 2. 加密参数 3. 加密接口 4. 加密数据算法实现： import hashlib def sha1(data): # 创建一个SHA1散列对象 sha1 = hashlib.sha1() # 更新散列对象以包含数据 sha1.update(data.encode(' 阅读全文

posted @ 2025-01-07 16:16 淋哥阅读(202) 评论(0) 推荐(0)

一亿条数据查找一百万条数据

摘要：直接上代码 import time def spider(): start_time = time.time() data_dict = {} for page in range(100000000): data_dict[str(page)] = '1' print("haoshi_1:",tim 阅读全文

posted @ 2025-01-07 11:06 淋哥阅读(43) 评论(0) 推荐(0)

2025年1月5日

python 布隆过滤器

摘要： import mmh3 import redis import math class PyBloomFilter: # 内置100个随机种子 SEEDS = [ 543, 460, 171, 876, 796, 607, 650, 81, 837, 545, 591, 946, 846, 521, 阅读全文

posted @ 2025-01-05 00:25 淋哥阅读(74) 评论(0) 推荐(0)

2025年1月3日

pdf 添加页脚

摘要： import PyPDF2 from PyPDF2 import PdfWriter, PdfReader from reportlab.pdfgen import canvas from reportlab.lib.pagesizes import letter import io from re 阅读全文

posted @ 2025-01-03 11:02 淋哥阅读(98) 评论(0) 推荐(0)

python 移除 pdf 密码

摘要： import threading from PyPDF2 import PdfReader from PyPDF2 import PdfWriter # 定义一个类在线程中共享信息 class SharedState: def __init__(self): self.state = True se 阅读全文

posted @ 2025-01-03 10:30 淋哥阅读(187) 评论(0) 推荐(0)

2024年12月24日

统计指定目录 log 文件有多少行

摘要： find /home/xcl/log_300_600 -type f -name "*.log*" -exec cat {} + | wc -l 阅读全文

posted @ 2024-12-24 17:32 淋哥阅读(21) 评论(0) 推荐(0)

2024年12月12日

wxauto 简单操作微信发送消息

摘要： wxauto 是我在2020年开发的一个基于 UIAutomation 的开源 Python 微信自动化库，最初只是一个简单的脚本，只能获取消息和发送消息，经历了2年多的停滞，期间很多网友留言说需要更多的功能，所以在2023年针对新版微信重新开发了 wxauto，增加了更多的功能，即使 Python 阅读全文

posted @ 2024-12-12 15:53 淋哥阅读(810) 评论(2) 推荐(0)

2024年12月10日

央视频解析播放链接

摘要： import random import re import time import requests from Crypto.Cipher import AES from Crypto.Util.Padding import pad # from m3u8download_hecoter impo 阅读全文

posted @ 2024-12-10 14:28 淋哥阅读(813) 评论(0) 推荐(0)

2024年12月6日

python 修改一个目录下所有的时间

摘要： import os from pathlib import Path def list_files(startpath): path = Path(startpath) for item in path.rglob('*'): if item.is_file(): target_timestamp 阅读全文

posted @ 2024-12-06 18:00 淋哥阅读(65) 评论(0) 推荐(0)

2024年11月18日

python 杀死进程

摘要： code def kill_process_by_pid(pid,process_name): print(f"正在尝试结束 {process_name} 进程...") subprocess.call(['taskkill','/F','/PID',str(pid)]) print(f"{proc 阅读全文

posted @ 2024-11-18 10:31 淋哥阅读(159) 评论(0) 推荐(0)

2024年10月27日

pdf 移除密码

摘要： pdf 移除密码 #pdf的读取方法from PyPDF2 import PdfReader#pdf的写入方法from PyPDF2 import PdfWriter def deception_pdf2() : # 获取指定目录下的所有文件和目录 directory = "E:xxxxxxxxxx 阅读全文

posted @ 2024-10-27 23:12 淋哥阅读(130) 评论(0) 推荐(0)

2024年5月28日

python 设置日志

摘要： import logging from logging.handlers import TimedRotatingFileHandler # 创建一个logger logger = logging.getLogger(__name__) logger.setLevel(logging.INFO) # 阅读全文

posted @ 2024-05-28 09:37 淋哥阅读(53) 评论(0) 推荐(0)

2024年4月30日

python 对文件夹重命名

摘要： import os def rename_folders(root_dir, level=1, parent_prefix=''): # 计数器，用于生成唯一的名称 counter = 1 # 遍历文件夹 for dirpath, dirnames, filenames in os.walk(roo 阅读全文

posted @ 2024-04-30 11:03 淋哥阅读(260) 评论(0) 推荐(0)

2024年3月4日

3 Error: Cannot find module 'jsdom'

摘要：指定绝对路径 python在使用execjs执行js也可以指定node_modules路径，这样就不需要进行环境变量的添加了。 js_code = open("toutiao_signature.js", "r", encoding="utf-8").read() ctx = execjs.comp 阅读全文

posted @ 2024-03-04 18:28 淋哥阅读(216) 评论(0) 推荐(0)

2024年1月22日

docker nodejs jsdom 打镜像系统 arm64

摘要： nodejs 下载地址：https://nodejs.org/dist/v14.15.1/ nodejs node-v14.15.1-linux-x64 (2).tar.gz RUN npm install -y jsdom@21.1.1 -g arm64 环境部署： 1. 下载 nodejs 下载阅读全文

posted @ 2024-01-22 15:34 淋哥阅读(409) 评论(0) 推荐(0)

2024年1月12日

测试

摘要： 1 阅读全文

posted @ 2024-01-12 14:01 淋哥阅读(20) 评论(0) 推荐(0)

2023年6月27日

python 批量删除 redis 大量数据

摘要： #!/usr/bin/env python # Scan and delete keys in Redis. # Author: cdfive from redis import Redis import time def RedisScanAndDelete(host, port, passwor 阅读全文

posted @ 2023-06-27 11:25 淋哥阅读(432) 评论(0) 推荐(0)

2023年5月17日

删除 bad pod

摘要： kubectl get pod -n crawl|egrep "Error|Terminating|ContainerStatusUnknown|CrashLoopBackOff|Terminating|Evicted"|awk -F " " '{print $1}'|xargs kubectl - 阅读全文

posted @ 2023-05-17 18:51 淋哥阅读(44) 评论(0) 推荐(0)

2023年5月4日

该方法实现网页编码的自动识别和转换

摘要： """该方法实现网页编码的自动识别和转换"""# python 第三方库chardet不可靠,把gbk编码解析成 Windows-1254@retry(stop_max_attempt_number=5, wait_random_min=2000, wait_random_max=20000, )d 阅读全文

posted @ 2023-05-04 17:08 淋哥阅读(105) 评论(0) 推荐(0)

2023年4月17日

如果是不创建新浏览器窗口，直接在已打开的浏览器，则代码需要修改为：

摘要：如果是不创建新浏览器窗口，直接在已打开的浏览器，则代码需要修改为： caps = DesiredCapabilities.CHROMEcaps['loggingPrefs'] = {'performance': 'ALL'} options = webdriver.ChromeOptions()op 阅读全文

posted @ 2023-04-17 17:10 淋哥阅读(61) 评论(0) 推荐(0)

2023年4月12日

python 1970年以前字符串转换时间戳

摘要：代码1 from datetime import datetime result = '1970-01-01 07:00:00' time_1 = '1966-07-17 06:03:00' if time_1 > result: array = time.strptime(time_1, "%Y- 阅读全文

posted @ 2023-04-12 16:52 淋哥阅读(105) 评论(0) 推荐(0)

2023年3月29日

execjs UnicodeEncodeError: 'gbk' codec can't encode character '\xff' in position 23995: illegal multibyte sequence

摘要： import subprocess # 创建一个新的 Popen 类，并继承自 subprocess.Popen class MySubprocessPopen(subprocess.Popen): def __init__(self, *args, **kwargs): # 在调用父类（即 sub 阅读全文

posted @ 2023-03-29 13:59 淋哥阅读(297) 评论(0) 推荐(0)

2023年2月15日

Python + redis 实现布隆过滤器

摘要： # -*- coding: utf-8 -*- ''' @Project:PyCharm @File : test2.py @Time:2023-02-15 13:46 @Author:xcl @Email:2221117055@qq.com ''' import mmh3 import redis 阅读全文

posted @ 2023-02-15 13:16 淋哥阅读(281) 评论(0) 推荐(0)

2022年11月22日

selenium 速度慢的问题

摘要： # -*- coding: utf-8 -*-'''createTime : 2022-08-04 10:22@software: : spiderSystem在使用selenium的过程中，速度比较慢，主要原因有1. 加载图片或者css文件等2. driver.get(url) 是阻塞的，加载速度阅读全文

posted @ 2022-11-22 09:17 淋哥阅读(4195) 评论(0) 推荐(0)

英雄莫问出处,富贵当思缘由

公告