import time
import ddddocr
from PIL import Image, ImageDraw
file_name = '6.jpg'

from io import BytesIO  # 必须添加此导入
def process_image(poses):
    # 初始化OCR
    ocr = ddddocr.DdddOcr(show_ad=False)

    # 直接打开本地图片 1.jpg
    img = Image.open(file_name)  # 确保图片在当前工作目录,或使用绝对路径如 "C:/path/to/1.jpg"

    draw = ImageDraw.Draw(img)
    click_identify_result = {}

    for row in poses:
        # 扩展矩形区域(防止越界)
        x1 = max(0, row[0] - 3)
        y1 = max(0, row[1] - 3)
        x2 = min(img.width, row[2] + 3)
        y2 = min(img.height, row[3] + 3)

        # 绘制红色边框
        draw.rectangle([x1, y1, x2, y2], outline="red", width=1)

        # 裁剪区域
        corp = img.crop((x1, y1, x2, y2))

        # 保存到内存并识别
        img_byte = BytesIO()
        corp.save(img_byte, format='PNG')
        img_byte.seek(0)  # 重置指针

        # OCR识别
        word = ocr.classification(img_byte.getvalue())
        click_identify_result[word] = (x1, y1, x2, y2)

    # img.show()  # 显示结果图
    return click_identify_result

import cv2
det = ddddocr.DdddOcr(det=True,show_ad=False)
with open(file_name, 'rb') as f:
    image = f.read()
poses = det.detection(image)
# poses = [(194, 31, 228, 66), (308, 106, 342, 140)]  # 替换为实际坐标列表
result = process_image(poses)
print("识别结果:", result)

import os import fitz doc = fitz.open('D:\888\888\\6.pdf') imgcount = 0for page in doc: imageList = page.get_images() print(imageList) i = 0 for imgin
总有人说python做爬虫速度慢,能开并发数少,至于为什么慢就是说不上来,今天就是测试一下python语言的速度和并发数量。 在网络爬虫中,影响速度的有数据下载,数据解析,数据存储,最主要的影响是数据下载和数据存储,数据下载影响是网络IO,数据存储是磁盘IO,本次模拟数据下载是1s,然后数据存储直接
互联网的数据有web,app,小程序,windows客户端等,抓取数据不能拘泥于一点,只要能搞到数据,一切都是OK。 今天主要详细的介绍一下windows的抓包。 1. 下载windows客户端,安装 这个就不介绍了,太简单了,不会的就别往下再去看这个教程了。 2. 安装fiddler 百度fidd
1. 进入到bootloader 按着手机开机键+ 音量- 键,进入到bootloader2. 查看到已连接的设备 fastboot devices 3. 解锁 fastboot oem unlock 4. 检查是否已经解锁 fastboot oem device-info 第二行 Device u
需要对谷歌插件进行网络请求分析,正常的fiddler无法抓包,研究了一番,使用浏览器代理的方式进行抓包。 1. 安装谷歌插件 2. 安装代理插件 Proxy SwitchyOmega 正常安装即可 3. 设置 Proxy SwitchyOmega ip地址和端口 设置完毕后注意启动代理 5. 启动f
在编写爬虫代码的过程中,程序员会使用redis 集合进行去重,今天就测试一下redis去重需要多少内存的问题 过程:我们对10w,100w,1000w 的数字进行 md5 加密,生成唯一的32位字符串,然后存入到redis集合中去,通过rdm 的 内存分析占用查看redis的大小。 1. 对10w
打开网站会看到瑞数的无限degugger,特恶心啊 魔高一尺道高一丈 怎么处理呢? 选中 debugger这行,然后 Edit breakpoint ,输入if 1>2 即可
1. 首先看一下 python 多进程的优点和缺点 二: 测试服务器情况: cpu是12核心,内存是128G 三:测试目的: 测试目的是因为多进程 切换开销大,创建进程的代价大,通过开不同的进程数量,测试是否会出现进程开的越多,爬虫的速度越慢的情况。 四:测试软件条件: 1. 用10000个关键词,
首先对一百万数据进行排序: 对一千万数据进行排序: 对一亿数据进行排序:
大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫 大众点评的反爬虫手段有那些: 封ip,封账号,字体库反爬虫,css文字映射,图形滑动验证码 这个图片是滑动验证码,访问频率高的话,会出现这个滑动验证码 这个图片是店铺失效或者封账号出现的提示 关于大众点评 css文件映射分析: 第一步:
这是一个rsa加密,并且每次加密候的数据固定不变。 第一步:查看加密字段 第二步:搜索加密参数 第三步:打断点调试 1 2 3. 第四部:js调试工具调试 第五步:源码 function c(a) { var b = f, c = b.biDivideByRadixPower(a, this.k -
京东登录,有一个参数nloginpwd,是加密字段。 第一步:浏览器抓包 第二部:搜索加密字段 js 代码 第三部: 下断点 2. js代码: var navigator = {}; var window = {}; var Base64 = {}; var ASN1 = {}; var Hex =
今天介绍一个简单验证的识别。 主要是标准的格式,没有扭曲和变现。就用 pytesseract 去识别一下。 验证码地址:http://wscx.gjxfj.gov.cn/zfp/webroot/xfsxcx.html 需要识别的验证码是: 因为这个验证码有干扰点,所以直接识别的效果非常不好。 首先对
在这篇博文中手把手教你如何去分割验证,然后进行识别。 一:下载验证码 验证码分析,图片上有折线,验证码有数字,有英文字母大小写,分类的时候需要更多的样本,验证码的字母是彩色的,图片上有雪花等噪点,因此识别改验证码难度较大 二:二值化和降噪: 三: 切割: 四:分类: 五: 测试识别率 六:总结: 综
某个招聘网站的验证码识别,过程如下 一: 原始验证码: 二: 首先对验证码进行分析,该验证码的数字颜色有变化,这个就是识别这个验证码遇到的比较难的问题,解决方法是使用PIL 中的 getpixel 方法进行变色处理,统一把非黑色的像素点变成黑色 变色后的图片 三: 通过观察,发现该验证码有折线,需要
本篇主要介绍网站数据非常大的采集心得 1. 什么样的数据才能称为数据量大: 我觉得这个可能会因为每个人的理解不太一样,给出的定义 也不相同。我认为定义一个采集网站的数据大小,不仅仅要看这个网站包括的数据量的大小,还应该包括这个网址的采集难度,采集网站的服务器承受能力,采集人员所调配的网络带宽和计算机
今天无事写一遍关于爬虫对计算机的影响,主要是给小白同学普及一下爬虫的基础知识。 在我们写爬虫的时候,首先会想到开多线程,如果使用的语言是Python,很不幸,因为Python存在 GIL,在任何时候,CPU内只有一条线程在运行,但是Python的多线程也能提高爬虫的速度,并且我们用python的多线
摘要: # coding:utf-8 import json import redis import time import requests session = requests.session() import logging.handlers import pickle import sys import re import datetime from bs4 import BeautifulS... 阅读全文
今天使用python 和selenium爬取动态数据,主要是通过不停的更新页面,实现数据的爬取,要爬取的数据如下图 源代码:
DrissionPage 下载文件 设置文件指定下载路径 DrissionPage 下载文件 设置文件指定下载路径 DrissionPage 下载文件 设置文件指定下载路径 直接上代码: from DrissionPage import ChromiumPage,ChromiumOptions #
我现在有三台服务器,分别是A,B,C,这三个服务器,在b服务器部署一个接口,接口是 https://cloud.tencent.com:8080/xxx/xx/xxx?ssd=dd, A 服务器请求 b服务器的接口,要求把a服务器的请求,都经过c服务器,然后再转发到a服务器,如何实现这个目标。 为了
multipart/form-data; boundary WebKitFormBoundaryI9jlgzsMT2lzfSLM网站 : http://gooa.las.ac.cn/paperc/?#/paper?subpath=listja&qstr=%E6%96%B0%E9%97%BB { "A
OSError: [E050] Can't find model 'zh_core_web_sm'. It doesn't seem to be a Python package or a valid path to a data directory. OSError: [E050] Can't f
摘要: 1. 搜索大法,屡试不爽 2. 加密参数 3. 加密接口 4. 加密数据 算法实现: import hashlib def sha1(data): # 创建一个SHA1散列对象 sha1 = hashlib.sha1() # 更新散列对象以包含数据 sha1.update(data.encode(' 阅读全文
摘要: 直接上代码 import time def spider(): start_time = time.time() data_dict = {} for page in range(100000000): data_dict[str(page)] = '1' print("haoshi_1:",tim 阅读全文
摘要: import mmh3 import redis import math class PyBloomFilter: # 内置100个随机种子 SEEDS = [ 543, 460, 171, 876, 796, 607, 650, 81, 837, 545, 591, 946, 846, 521, 阅读全文
摘要: import PyPDF2 from PyPDF2 import PdfWriter, PdfReader from reportlab.pdfgen import canvas from reportlab.lib.pagesizes import letter import io from re 阅读全文
摘要: import threading from PyPDF2 import PdfReader from PyPDF2 import PdfWriter # 定义一个类在线程中共享信息 class SharedState: def __init__(self): self.state = True se 阅读全文
摘要: find /home/xcl/log_300_600 -type f -name "*.log*" -exec cat {} + | wc -l 阅读全文
wxauto 是我在2020年开发的一个基于 UIAutomation 的开源 Python 微信自动化库,最初只是一个简单的脚本,只能获取消息和发送消息,经历了2年多的停滞,期间很多网友留言说需要更多的功能,所以在2023年针对新版微信重新开发了 wxauto,增加了更多的功能,即使 Python
摘要: import random import re import time import requests from Crypto.Cipher import AES from Crypto.Util.Padding import pad # from m3u8download_hecoter impo 阅读全文
摘要: import os from pathlib import Path def list_files(startpath): path = Path(startpath) for item in path.rglob('*'): if item.is_file(): target_timestamp 阅读全文
摘要: code def kill_process_by_pid(pid,process_name): print(f"正在尝试结束 {process_name} 进程...") subprocess.call(['taskkill','/F','/PID',str(pid)]) print(f"{proc 阅读全文
摘要: pdf 移除密码 #pdf的读取方法from PyPDF2 import PdfReader#pdf的写入方法from PyPDF2 import PdfWriter def deception_pdf2() : # 获取指定目录下的所有文件和目录 directory = "E:xxxxxxxxxx 阅读全文
摘要: import logging from logging.handlers import TimedRotatingFileHandler # 创建一个logger logger = logging.getLogger(__name__) logger.setLevel(logging.INFO) # 阅读全文
摘要: import os def rename_folders(root_dir, level=1, parent_prefix=''): # 计数器,用于生成唯一的名称 counter = 1 # 遍历文件夹 for dirpath, dirnames, filenames in os.walk(roo 阅读全文
摘要: 指定绝对路径 python在使用execjs执行js也可以指定node_modules路径,这样就不需要进行环境变量的添加了。 js_code = open("toutiao_signature.js", "r", encoding="utf-8").read() ctx = execjs.comp 阅读全文
nodejs 下载地址:https://nodejs.org/dist/v14.15.1/ nodejs node-v14.15.1-linux-x64 (2).tar.gz RUN npm install -y jsdom@21.1.1 -g arm64 环境部署: 1. 下载 nodejs 下载
1
摘要: #!/usr/bin/env python # Scan and delete keys in Redis. # Author: cdfive from redis import Redis import time def RedisScanAndDelete(host, port, passwor 阅读全文
摘要: kubectl get pod -n crawl|egrep "Error|Terminating|ContainerStatusUnknown|CrashLoopBackOff|Terminating|Evicted"|awk -F " " '{print $1}'|xargs kubectl - 阅读全文
摘要: """该方法实现网页编码的自动识别和转换"""# python 第三方库chardet不可靠,把gbk编码解析成 Windows-1254@retry(stop_max_attempt_number=5, wait_random_min=2000, wait_random_max=20000, )d 阅读全文
摘要: 如果是不创建新浏览器窗口,直接在已打开的浏览器,则代码需要修改为: caps = DesiredCapabilities.CHROMEcaps['loggingPrefs'] = {'performance': 'ALL'} options = webdriver.ChromeOptions()op 阅读全文
摘要: 代码1 from datetime import datetime result = '1970-01-01 07:00:00' time_1 = '1966-07-17 06:03:00' if time_1 > result: array = time.strptime(time_1, "%Y- 阅读全文
摘要: import subprocess # 创建一个新的 Popen 类,并继承自 subprocess.Popen class MySubprocessPopen(subprocess.Popen): def __init__(self, *args, **kwargs): # 在调用父类(即 sub 阅读全文
摘要: # -*- coding: utf-8 -*- ''' @Project:PyCharm @File : test2.py @Time:2023-02-15 13:46 @Author:xcl @Email:2221117055@qq.com ''' import mmh3 import redis 阅读全文
# -*- coding: utf-8 -*-'''createTime : 2022-08-04 10:24@software: : spiderSystem在使用selenium的过程中,速度比较慢,主要原因有1. 加载图片或者css文件等2. driver.get(url) 是阻塞的,加载速度
