摘要: import os import fitz doc = fitz.open('D:\888\888\\6.pdf') imgcount = 0for page in doc: imageList = page.get_images() print(imageList) i = 0 for imgin 阅读全文
posted @ 2024-01-25 17:45 淋哥 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 总有人说python做爬虫速度慢,能开并发数少,至于为什么慢就是说不上来,今天就是测试一下python语言的速度和并发数量。 在网络爬虫中,影响速度的有数据下载,数据解析,数据存储,最主要的影响是数据下载和数据存储,数据下载影响是网络IO,数据存储是磁盘IO,本次模拟数据下载是1s,然后数据存储直接 阅读全文
posted @ 2022-08-01 18:15 淋哥 阅读(736) 评论(0) 推荐(0) 编辑
摘要: 互联网的数据有web,app,小程序,windows客户端等,抓取数据不能拘泥于一点,只要能搞到数据,一切都是OK。 今天主要详细的介绍一下windows的抓包。 1. 下载windows客户端,安装 这个就不介绍了,太简单了,不会的就别往下再去看这个教程了。 2. 安装fiddler 百度fidd 阅读全文
posted @ 2022-06-16 17:54 淋哥 阅读(4752) 评论(0) 推荐(0) 编辑
摘要: 1. 进入到bootloader 按着手机开机键+ 音量- 键,进入到bootloader2. 查看到已连接的设备 fastboot devices 3. 解锁 fastboot oem unlock 4. 检查是否已经解锁 fastboot oem device-info 第二行 Device u 阅读全文
posted @ 2022-01-06 14:40 淋哥 阅读(1038) 评论(0) 推荐(0) 编辑
摘要: 需要对谷歌插件进行网络请求分析,正常的fiddler无法抓包,研究了一番,使用浏览器代理的方式进行抓包。 1. 安装谷歌插件 2. 安装代理插件 Proxy SwitchyOmega 正常安装即可 3. 设置 Proxy SwitchyOmega ip地址和端口 设置完毕后注意启动代理 5. 启动f 阅读全文
posted @ 2021-11-18 12:08 淋哥 阅读(1150) 评论(0) 推荐(0) 编辑
摘要: 在编写爬虫代码的过程中,程序员会使用redis 集合进行去重,今天就测试一下redis去重需要多少内存的问题 过程:我们对10w,100w,1000w 的数字进行 md5 加密,生成唯一的32位字符串,然后存入到redis集合中去,通过rdm 的 内存分析占用查看redis的大小。 1. 对10w 阅读全文
posted @ 2021-07-24 17:11 淋哥 阅读(622) 评论(0) 推荐(0) 编辑
摘要: 打开网站会看到瑞数的无限degugger,特恶心啊 魔高一尺道高一丈 怎么处理呢? 选中 debugger这行,然后 Edit breakpoint ,输入if 1>2 即可 阅读全文
posted @ 2021-06-04 11:26 淋哥 阅读(1213) 评论(0) 推荐(0) 编辑
摘要: 1. 首先看一下 python 多进程的优点和缺点 二: 测试服务器情况: cpu是12核心,内存是128G 三:测试目的: 测试目的是因为多进程 切换开销大,创建进程的代价大,通过开不同的进程数量,测试是否会出现进程开的越多,爬虫的速度越慢的情况。 四:测试软件条件: 1. 用10000个关键词, 阅读全文
posted @ 2019-09-12 13:16 淋哥 阅读(5362) 评论(0) 推荐(3) 编辑
摘要: 首先对一百万数据进行排序: 对一千万数据进行排序: 对一亿数据进行排序: 阅读全文
posted @ 2019-09-01 00:20 淋哥 阅读(1530) 评论(0) 推荐(0) 编辑
摘要: 大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫 大众点评的反爬虫手段有那些: 封ip,封账号,字体库反爬虫,css文字映射,图形滑动验证码 这个图片是滑动验证码,访问频率高的话,会出现这个滑动验证码 这个图片是店铺失效或者封账号出现的提示 关于大众点评 css文件映射分析: 第一步: 阅读全文
posted @ 2019-08-29 09:51 淋哥 阅读(6788) 评论(10) 推荐(6) 编辑
摘要: 这是一个rsa加密,并且每次加密候的数据固定不变。 第一步:查看加密字段 第二步:搜索加密参数 第三步:打断点调试 1 2 3. 第四部:js调试工具调试 第五步:源码 function c(a) { var b = f, c = b.biDivideByRadixPower(a, this.k - 阅读全文
posted @ 2019-08-29 09:17 淋哥 阅读(1104) 评论(0) 推荐(0) 编辑
摘要: 京东登录,有一个参数nloginpwd,是加密字段。 第一步:浏览器抓包 第二部:搜索加密字段 js 代码 第三部: 下断点 2. js代码: var navigator = {}; var window = {}; var Base64 = {}; var ASN1 = {}; var Hex = 阅读全文
posted @ 2019-08-28 16:53 淋哥 阅读(2311) 评论(0) 推荐(0) 编辑
摘要: 今天介绍一个简单验证的识别。 主要是标准的格式,没有扭曲和变现。就用 pytesseract 去识别一下。 验证码地址:http://wscx.gjxfj.gov.cn/zfp/webroot/xfsxcx.html 需要识别的验证码是: 因为这个验证码有干扰点,所以直接识别的效果非常不好。 首先对 阅读全文
posted @ 2019-08-10 23:59 淋哥 阅读(1703) 评论(0) 推荐(0) 编辑
摘要: 在这篇博文中手把手教你如何去分割验证,然后进行识别。 一:下载验证码 验证码分析,图片上有折线,验证码有数字,有英文字母大小写,分类的时候需要更多的样本,验证码的字母是彩色的,图片上有雪花等噪点,因此识别改验证码难度较大 二:二值化和降噪: 三: 切割: 四:分类: 五: 测试识别率 六:总结: 综 阅读全文
posted @ 2018-08-10 17:55 淋哥 阅读(21127) 评论(18) 推荐(4) 编辑
摘要: 某个招聘网站的验证码识别,过程如下 一: 原始验证码: 二: 首先对验证码进行分析,该验证码的数字颜色有变化,这个就是识别这个验证码遇到的比较难的问题,解决方法是使用PIL 中的 getpixel 方法进行变色处理,统一把非黑色的像素点变成黑色 变色后的图片 三: 通过观察,发现该验证码有折线,需要 阅读全文
posted @ 2018-08-03 18:07 淋哥 阅读(43416) 评论(5) 推荐(10) 编辑
摘要: 本篇主要介绍网站数据非常大的采集心得 1. 什么样的数据才能称为数据量大: 我觉得这个可能会因为每个人的理解不太一样,给出的定义 也不相同。我认为定义一个采集网站的数据大小,不仅仅要看这个网站包括的数据量的大小,还应该包括这个网址的采集难度,采集网站的服务器承受能力,采集人员所调配的网络带宽和计算机 阅读全文
posted @ 2018-08-01 11:52 淋哥 阅读(3911) 评论(0) 推荐(0) 编辑
摘要: 今天无事写一遍关于爬虫对计算机的影响,主要是给小白同学普及一下爬虫的基础知识。 在我们写爬虫的时候,首先会想到开多线程,如果使用的语言是Python,很不幸,因为Python存在 GIL,在任何时候,CPU内只有一条线程在运行,但是Python的多线程也能提高爬虫的速度,并且我们用python的多线 阅读全文
posted @ 2018-06-18 15:51 淋哥 阅读(6157) 评论(0) 推荐(2) 编辑
摘要: # coding:utf-8 import json import redis import time import requests session = requests.session() import logging.handlers import pickle import sys import re import datetime from bs4 import BeautifulS... 阅读全文
posted @ 2018-01-18 22:22 淋哥 阅读(3145) 评论(0) 推荐(1) 编辑
摘要: 今天使用python 和selenium爬取动态数据,主要是通过不停的更新页面,实现数据的爬取,要爬取的数据如下图 源代码: 阅读全文
posted @ 2018-01-08 13:31 淋哥 阅读(11436) 评论(0) 推荐(0) 编辑
摘要: 我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分 第二zh张图片,显示需要分页, 源代码: 阅读全文
posted @ 2018-01-06 19:28 淋哥 阅读(1406) 评论(0) 推荐(0) 编辑
摘要: import logging from logging.handlers import TimedRotatingFileHandler # 创建一个logger logger = logging.getLogger(__name__) logger.setLevel(logging.INFO) # 阅读全文
posted @ 2024-05-28 09:37 淋哥 阅读(2) 评论(0) 推荐(0) 编辑
摘要: import os def rename_folders(root_dir, level=1, parent_prefix=''): # 计数器,用于生成唯一的名称 counter = 1 # 遍历文件夹 for dirpath, dirnames, filenames in os.walk(roo 阅读全文
posted @ 2024-04-30 11:03 淋哥 阅读(17) 评论(0) 推荐(0) 编辑
摘要: 指定绝对路径 python在使用execjs执行js也可以指定node_modules路径,这样就不需要进行环境变量的添加了。 js_code = open("toutiao_signature.js", "r", encoding="utf-8").read() ctx = execjs.comp 阅读全文
posted @ 2024-03-04 18:28 淋哥 阅读(57) 评论(0) 推荐(0) 编辑
摘要: nodejs 下载地址:https://nodejs.org/dist/v14.15.1/ nodejs node-v14.15.1-linux-x64 (2).tar.gz RUN npm install -y jsdom@21.1.1 -g arm64 环境部署: 1. 下载 nodejs 下载 阅读全文
posted @ 2024-01-22 15:34 淋哥 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 1 阅读全文
posted @ 2024-01-12 14:01 淋哥 阅读(3) 评论(0) 推荐(0) 编辑
摘要: #!/usr/bin/env python # Scan and delete keys in Redis. # Author: cdfive from redis import Redis import time def RedisScanAndDelete(host, port, passwor 阅读全文
posted @ 2023-06-27 11:25 淋哥 阅读(293) 评论(0) 推荐(0) 编辑
摘要: kubectl get pod -n crawl|egrep "Error|Terminating|ContainerStatusUnknown|CrashLoopBackOff|Terminating|Evicted"|awk -F " " '{print $1}'|xargs kubectl - 阅读全文
posted @ 2023-05-17 18:51 淋哥 阅读(27) 评论(0) 推荐(0) 编辑
摘要: """该方法实现网页编码的自动识别和转换"""# python 第三方库chardet不可靠,把gbk编码解析成 Windows-1254@retry(stop_max_attempt_number=5, wait_random_min=2000, wait_random_max=20000, )d 阅读全文
posted @ 2023-05-04 17:08 淋哥 阅读(38) 评论(0) 推荐(0) 编辑
摘要: 如果是不创建新浏览器窗口,直接在已打开的浏览器,则代码需要修改为: caps = DesiredCapabilities.CHROMEcaps['loggingPrefs'] = {'performance': 'ALL'} options = webdriver.ChromeOptions()op 阅读全文
posted @ 2023-04-17 17:10 淋哥 阅读(25) 评论(0) 推荐(0) 编辑
摘要: 代码1 from datetime import datetime result = '1970-01-01 07:00:00' time_1 = '1966-07-17 06:03:00' if time_1 > result: array = time.strptime(time_1, "%Y- 阅读全文
posted @ 2023-04-12 16:52 淋哥 阅读(50) 评论(0) 推荐(0) 编辑
摘要: import subprocess # 创建一个新的 Popen 类,并继承自 subprocess.Popen class MySubprocessPopen(subprocess.Popen): def __init__(self, *args, **kwargs): # 在调用父类(即 sub 阅读全文
posted @ 2023-03-29 13:59 淋哥 阅读(167) 评论(0) 推荐(0) 编辑
摘要: # -*- coding: utf-8 -*-'''@Project:PyCharm@File : test2.py@Time:2023-02-15 13:46@Author:xcl@Email:2221117055@qq.com'''import mmh3import redisimport ma 阅读全文
posted @ 2023-02-15 13:16 淋哥 阅读(212) 评论(0) 推荐(0) 编辑
摘要: # -*- coding: utf-8 -*-'''createTime : 2022-08-04 10:22@software: : spiderSystem在使用selenium的过程中,速度比较慢,主要原因有1. 加载图片或者css文件等2. driver.get(url) 是阻塞的,加载速度 阅读全文
posted @ 2022-11-22 09:17 淋哥 阅读(3435) 评论(0) 推荐(0) 编辑
摘要: Pycharm 使用git 详细教程 1. 安装git 插件 File>setting>plugins 搜索 GitToolBox 点击安装即可 2. Git 初始化 3. 克隆项目 点击 Clone 无法克隆,删除 文件夹 .git即可 4. 下拉,提交,推送 阅读全文
posted @ 2022-11-11 10:26 淋哥 阅读(282) 评论(0) 推荐(0) 编辑
摘要: from lxml import etree from lxml.html import fromstring, tostring wb_data = """ <div class="text" id="text1"> <div class="textad" id="ad4"></div> <p>< 阅读全文
posted @ 2022-09-07 16:07 淋哥 阅读(30) 评论(0) 推荐(0) 编辑
摘要: def spider(): a = "%7B%221%22%3A%7B%22envService%22%3A%22prod%22%2C%22abTestData%22%3A%7B%22themeChange%22%3A1%2C%22searchBarPanel%22%3A0%2C%22updateN 阅读全文
posted @ 2022-08-22 20:34 淋哥 阅读(630) 评论(0) 推荐(0) 编辑
摘要: 修改1: 修改2: 修改3: 改完,然后保存。 回到fiddler页面。命令输入:bpu http://www.xxxx.com/xxx111 http://www.xxxx.com/xxx222两个uri 用空格隔开然后回车执行命令取消断点输入:bpu 回车即可。 然后,这两个页面都可以被拦截啦。 阅读全文
posted @ 2022-08-09 14:19 淋哥 阅读(373) 评论(0) 推荐(0) 编辑
摘要: 占坑 阅读全文
posted @ 2022-08-08 19:11 淋哥 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 占坑 阅读全文
posted @ 2022-08-08 19:10 淋哥 阅读(108) 评论(0) 推荐(0) 编辑
摘要: windows = driver.current_window_handle #定位当前页面句柄 all_handles = driver.window_handles #获取全部页面句柄 for handle in all_handles: #遍历全部页面句柄 if handle != windo 阅读全文
posted @ 2022-08-08 15:09 淋哥 阅读(749) 评论(0) 推荐(0) 编辑
摘要: unable to connect to 127.0.0.1:21503:21503 今天使用逍遥模拟器安装frida,adb报错,其中用逍遥多开器开了两个模拟器,第一个可以连接,第二个无法连接,报错 unable to connect to 127.0.0.1:21503:21503 主要是模拟器 阅读全文
posted @ 2022-07-06 19:15 淋哥 阅读(421) 评论(0) 推荐(0) 编辑
摘要: { "type": "error", "description": "TypeError: r.art::mirror::Object::Clone is not a function", "stack": "TypeError: r.art::mirror::Object::Clone is no 阅读全文
posted @ 2022-07-06 16:32 淋哥 阅读(1211) 评论(0) 推荐(0) 编辑
摘要: 直接上命令 第一步:下载火狐浏览器和驱动 版本号 firefox-89.0.tar.bz2 火狐驱动 :https://github.com/mozilla/geckodriver/releases geckodriver-v0.31.0-linux64.tar.gz 第二步 进入docker镜像, 阅读全文
posted @ 2022-06-20 17:16 淋哥 阅读(1300) 评论(0) 推荐(0) 编辑
摘要: 前言 在开发Web项目当中,浏览器必不可少,而浏览器的启动参数可以帮我们实现很多功能。 常用参数 常用参数请参考下表。 序号参数说明 1 --allow-outdated-plugins 不停用过期的插件。 2 --allow-running-insecure-content 默认情况下,https 阅读全文
posted @ 2022-06-14 17:24 淋哥 阅读(3947) 评论(0) 推荐(0) 编辑
摘要: 一、什么是浏览器指纹 浏览器指纹是指通过收集您设备的特征标识,用来对您进行唯一性识别、跟踪、分析行为、所生成的摘要ID 网站通过收集大量的信息,然后对所有的特征标识进行并集匹配,可以十分精确的对您进行标记。 Hubstudio,允许您自定义所有可能用户网站跟踪的标识。 标识内容: UA,语言,时区, 阅读全文
posted @ 2022-06-14 16:37 淋哥 阅读(708) 评论(0) 推荐(0) 编辑
摘要: 1、新建用户user1 sudo useradd -r -m -s /bin/bash user12、设置user1的密码 sudo passwd user1 3、给user1管理员权限 sudo vi /etc/sudoersroot ALL=(ALL:ALL) ALLuser1 ALL=(ALL 阅读全文
posted @ 2022-06-08 15:41 淋哥 阅读(159) 评论(0) 推荐(0) 编辑
摘要: let url = 'https://www.toutiao'; let params = { }; let xhr = new XMLHttpRequest(); xhr.open("GET", url, true); xhr.setRequestHeader("Content-Type", "a 阅读全文
posted @ 2022-05-20 17:02 淋哥 阅读(774) 评论(0) 推荐(0) 编辑