上一页 1 2 3 4 5 6 7 8 9 ··· 16 下一页
摘要: 阅读全文
posted @ 2020-06-30 18:06 淋哥 阅读(1305) 评论(0) 推荐(0) 编辑
摘要: 1. 问题 抓取某个网站,发现请求参数是乱码格式, 这是点击 TextView,发现请求参数如下图所示 3. 那么=%B9%FA%CE%F1%D4%BA%B7%A2%D5%B9%D1%D0%BE%BF%D6%D0%D0%C4是什么东西啊 解码后是 =国务院发展研究中心 代码实现: content = 阅读全文
posted @ 2020-06-05 23:05 淋哥 阅读(962) 评论(0) 推荐(0) 编辑
摘要: 一、安装jdk 由于ElasticSearch 5.x 往后依赖于JDK 1.8的,所以现在我们下载JDK 1.8或者更高版本。 下载JDK1.8,下载完成后安装。 二:下载安装ES 下载地址:https://www.elastic.co/cn/downloads/elasticsearch 打开连 阅读全文
posted @ 2020-05-28 09:19 淋哥 阅读(1003) 评论(0) 推荐(0) 编辑
摘要: 需求是需要用python往 SqlServer中的image类型字段中插入二进制图片 核心代码,研究好几个小时的代码: 安装pywin32,adodbapi 安装pywin32,adodbapi image_url = "图片链接" try: image_result = session.get(u 阅读全文
posted @ 2020-05-08 14:10 淋哥 阅读(1347) 评论(0) 推荐(0) 编辑
摘要: 爬虫的本质是什么 搞爬虫或者面试官总是觉得分布式爬虫是一个很牛逼的东西,认为只有会分布式爬虫才能体现一个爬虫工程师的最高技术水平,而不会分布式爬虫,则认为爬虫工程师的水平很菜,这是一种很肤浅的思想。 一:在实际的工作中,爬虫根本不需要去分布式爬虫 1.现在服务器越来越好,网络也越来越好,一台优秀的服 阅读全文
posted @ 2020-04-04 20:33 淋哥 阅读(832) 评论(0) 推荐(2) 编辑
摘要: 抓取某个网站,抓包如下 form data 这个简单,只需要用如下请求即可: url = "http://www.hebpr.gov.cn/inteligentsearch/rest/inteligentSearch/getFullTextData"headers = { "Host":"www.h 阅读全文
posted @ 2019-12-27 10:09 淋哥 阅读(3987) 评论(1) 推荐(4) 编辑
摘要: 问题: 爬虫用的是mysql数据库,发现磁盘已经用了600G,目前已经不太可能去增加磁盘的容量了,这是想到了对数据表进行压缩,去查看mysql文件 发现有很多的Binlog日志文件,果断的去上网查了一下资料,发现这些文件没有什么用处,那就删除吧。 binlog日志介绍 Binlog是mysql以二进 阅读全文
posted @ 2019-12-27 10:09 淋哥 阅读(2235) 评论(0) 推荐(0) 编辑
摘要: select table_schema as '数据库', table_name as '表名', table_rows as '记录数', truncate(data_length/1024/1024, 2) as '数据容量(MB)', truncate(index_length/1024/10 阅读全文
posted @ 2019-12-27 10:09 淋哥 阅读(1092) 评论(0) 推荐(0) 编辑
摘要: Type `help' to learn how to use Xshell prompt. [c:\~]$ Connecting to 20.0.0.91:22...Connection established.To escape to local shell, press 'Ctrl+Alt+] 阅读全文
posted @ 2019-11-01 12:42 淋哥 阅读(12767) 评论(0) 推荐(0) 编辑
摘要: ERROR: Command errored out with exit status 1: command: /usr/bin/python -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'/tmp/pip-install-pS3u 阅读全文
posted @ 2019-10-29 16:36 淋哥 阅读(17333) 评论(1) 推荐(0) 编辑
摘要: mysql安装参考教程:https://blog.csdn.net/qq_37350706/article/details/81707862 安装完毕后 执行sql语句 SELECT * FROM court_info GROUP BY second_court_name HAVING COUNT( 阅读全文
posted @ 2019-10-09 16:53 淋哥 阅读(777) 评论(1) 推荐(2) 编辑
摘要: 1. 首先看一下 python 多进程的优点和缺点 二: 测试服务器情况: cpu是12核心,内存是128G 三:测试目的: 测试目的是因为多进程 切换开销大,创建进程的代价大,通过开不同的进程数量,测试是否会出现进程开的越多,爬虫的速度越慢的情况。 四:测试软件条件: 1. 用10000个关键词, 阅读全文
posted @ 2019-09-12 13:16 淋哥 阅读(5401) 评论(0) 推荐(3) 编辑
摘要: 首先对一百万数据进行排序: 对一千万数据进行排序: 对一亿数据进行排序: 阅读全文
posted @ 2019-09-01 00:20 淋哥 阅读(1549) 评论(0) 推荐(0) 编辑
摘要: 这次去测试一下 python 的set去重,速度怎么样? 我们要做的是把文件一次性读取到内存中,然后去重,输出去重的长度。 第一步:对 121w 条数据去重,看去重话费的时间 上证据: 第二步:对 1210 w 条数据去重,看去重话费的时间 第三步:对 1.21 亿 条数据去重,看去重话费的时间 阅读全文
posted @ 2019-08-29 17:09 淋哥 阅读(1526) 评论(1) 推荐(1) 编辑
摘要: 这是一个简单的md5加密,可以学习一下js加密的破解流程,当一个入门级的教程 第一步:请求抓包 password是32位的字母和数字组合,猜测可能是md5加密,我们md5在线工具上试一下 发现我们的猜测是完全正确的 第二步:搜索js加密字段 第三步: 静态分析js,打断点 1. 2. 第四步: 扣j 阅读全文
posted @ 2019-08-29 10:09 淋哥 阅读(1567) 评论(0) 推荐(1) 编辑
摘要: 大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫 大众点评的反爬虫手段有那些: 封ip,封账号,字体库反爬虫,css文字映射,图形滑动验证码 这个图片是滑动验证码,访问频率高的话,会出现这个滑动验证码 这个图片是店铺失效或者封账号出现的提示 关于大众点评 css文件映射分析: 第一步: 阅读全文
posted @ 2019-08-29 09:51 淋哥 阅读(6929) 评论(10) 推荐(6) 编辑
摘要: 这是一个rsa加密,并且每次加密候的数据固定不变。 第一步:查看加密字段 第二步:搜索加密参数 第三步:打断点调试 1 2 3. 第四部:js调试工具调试 第五步:源码 function c(a) { var b = f, c = b.biDivideByRadixPower(a, this.k - 阅读全文
posted @ 2019-08-29 09:17 淋哥 阅读(1123) 评论(0) 推荐(0) 编辑
摘要: 京东登录,有一个参数nloginpwd,是加密字段。 第一步:浏览器抓包 第二部:搜索加密字段 js 代码 第三部: 下断点 2. js代码: var navigator = {}; var window = {}; var Base64 = {}; var ASN1 = {}; var Hex = 阅读全文
posted @ 2019-08-28 16:53 淋哥 阅读(2484) 评论(0) 推荐(0) 编辑
摘要: # -*- coding=utf-8-*- from Crypto.Cipher import DES import base64 """ des cbc加密算法 padding : PKCS5 """ class DESUtil: __BLOCK_SIZE_8 = BLOCK_SIZE_8 = DES.block_size __IV = "\0\0\0\0\0\0\0\0" # __IV = c 阅读全文
posted @ 2019-08-28 08:29 淋哥 阅读(4599) 评论(0) 推荐(1) 编辑
摘要: AES加密方式有五种:ECB, CBC, CTR, CFB, OFB 从安全性角度推荐CBC加密方法,本文介绍了CBC,ECB两种加密方法的python实现 python 在 Windows下使用AES时要安装的是pycryptodome 模块 pip install pycryptodome py 阅读全文
posted @ 2019-08-28 08:25 淋哥 阅读(19554) 评论(1) 推荐(0) 编辑
摘要: AES ECB模式加解密使用cryptopp完成AES的ECB模式进行加解密。 AES加密数据块分组长度必须为128比特,密钥长度可以是128比特、192比特、256比特中的任意一个。(8比特 == 1字节) 在CBC、CFB、OFB、CTR模式下除了密钥外,还需要一个初始化向IV。(ECB模式不用 阅读全文
posted @ 2019-08-28 08:18 淋哥 阅读(10920) 评论(3) 推荐(2) 编辑
摘要: 第一步: 发现加密 第二部:搜索加密参数 queryId 第三部:找到js核心加密代码 第四部:代码实现 执行结果: 阅读全文
posted @ 2019-08-27 15:30 淋哥 阅读(582) 评论(0) 推荐(0) 编辑
摘要: 直接扣js代码 运行结果: 阅读全文
posted @ 2019-08-27 15:13 淋哥 阅读(484) 评论(0) 推荐(0) 编辑
摘要: ASCII码:一个英文字母(不分大小写)占一个字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数。换算为十进制,最小值-128,最大值127。如一个ASCII码就是一个字节。 UTF-8编码:一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。中文标点占三个字节,英 阅读全文
posted @ 2019-08-26 13:32 淋哥 阅读(2078) 评论(0) 推荐(0) 编辑
摘要: 今天介绍一个简单验证的识别。 主要是标准的格式,没有扭曲和变现。就用 pytesseract 去识别一下。 验证码地址:http://wscx.gjxfj.gov.cn/zfp/webroot/xfsxcx.html 需要识别的验证码是: 因为这个验证码有干扰点,所以直接识别的效果非常不好。 首先对 阅读全文
posted @ 2019-08-10 23:59 淋哥 阅读(1736) 评论(0) 推荐(0) 编辑
摘要: 今天介绍一个简单验证的识别。 主要是标准的格式,没有扭曲和变现。就用 pytesseract 去识别一下。 验证码地址:http://wsxf.mca.gov.cn/zfp/Random.cmd?d=1565452532947 需要识别的验证码是: 识别结果是: 识别率百分之八十。10个有两个错误。 阅读全文
posted @ 2019-08-10 23:54 淋哥 阅读(659) 评论(0) 推荐(0) 编辑
摘要: 今天介绍一个简单验证的识别。 主要是标准的格式,没有扭曲和变现。就用 pytesseract 去识别一下。 验证码地址:https://user.www.gov.cn/sso/verifyimg_edit?rd=0.22469390770687414 需要识别的验证码是: 识别结果是: 识别代码是: 阅读全文
posted @ 2019-08-10 23:46 淋哥 阅读(826) 评论(0) 推荐(0) 编辑
摘要: 对于普通的字符型验证码,如果可以分割,那么降噪和二值化以后,就很容易识别了。 这篇博客主演是对验证码进行降噪和二值化。 下面的图片是处理前的验证码和处理后的验证码截图: 下面是登录的验证码: 下面是验证码处理前后的对比 降噪代码不再附加 阅读全文
posted @ 2019-08-07 13:19 淋哥 阅读(483) 评论(0) 推荐(0) 编辑
摘要: unicode转换为中文 阅读全文
posted @ 2019-07-22 14:48 淋哥 阅读(8803) 评论(0) 推荐(0) 编辑
摘要: python 调用java代码: 每次运行程序都看到这个玩意,觉得恶心,那就去进入 修改这个警告。 把烦人的警告直接替换为空格 最后运行程序: 最起码看着不是那么的恶心了。 阅读全文
posted @ 2019-07-11 13:32 淋哥 阅读(3204) 评论(2) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 16 下一页