08 2018 档案

摘要:在这篇博文中手把手教你如何去分割验证,然后进行识别。 一:下载验证码 验证码分析,图片上有折线,验证码有数字,有英文字母大小写,分类的时候需要更多的样本,验证码的字母是彩色的,图片上有雪花等噪点,因此识别改验证码难度较大 二:二值化和降噪: 三: 切割: 四:分类: 五: 测试识别率 六:总结: 综 阅读全文
posted @ 2018-08-10 17:55 淋哥 阅读(21291) 评论(18) 推荐(4) 编辑
摘要: 阅读全文
posted @ 2018-08-06 10:19 淋哥 阅读(636) 评论(0) 推荐(0) 编辑
摘要:某个招聘网站的验证码识别,过程如下 一: 原始验证码: 二: 首先对验证码进行分析,该验证码的数字颜色有变化,这个就是识别这个验证码遇到的比较难的问题,解决方法是使用PIL 中的 getpixel 方法进行变色处理,统一把非黑色的像素点变成黑色 变色后的图片 三: 通过观察,发现该验证码有折线,需要 阅读全文
posted @ 2018-08-03 18:07 淋哥 阅读(43518) 评论(5) 推荐(10) 编辑
摘要:本篇主要介绍网站数据非常大的采集心得 1. 什么样的数据才能称为数据量大: 我觉得这个可能会因为每个人的理解不太一样,给出的定义 也不相同。我认为定义一个采集网站的数据大小,不仅仅要看这个网站包括的数据量的大小,还应该包括这个网址的采集难度,采集网站的服务器承受能力,采集人员所调配的网络带宽和计算机 阅读全文
posted @ 2018-08-01 11:52 淋哥 阅读(3970) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示