06 2018 档案

摘要:原始图片: 降噪后的图片 实现代码: 阅读全文
posted @ 2018-06-27 15:59 淋哥 阅读(5685) 评论(2) 推荐(1) 编辑
摘要:在计算机中彩色图片是由像素点组成,像素点由R(红)G(绿)B(蓝)三原色组成,在验证码识别过程中,一般把需要识别的字符称为前景,其他的称为背景 灰度化:即将彩色图像转化为灰度图像,一般有以下三种方法 1)最大值法:命R、G、B的值等于三者中最大值,即R=G=B=max(R,G,B),这种方法会形成亮 阅读全文
posted @ 2018-06-24 00:50 淋哥 阅读(676) 评论(0) 推荐(1) 编辑
摘要:今天无事写一遍关于爬虫对计算机的影响,主要是给小白同学普及一下爬虫的基础知识。 在我们写爬虫的时候,首先会想到开多线程,如果使用的语言是Python,很不幸,因为Python存在 GIL,在任何时候,CPU内只有一条线程在运行,但是Python的多线程也能提高爬虫的速度,并且我们用python的多线 阅读全文
posted @ 2018-06-18 15:51 淋哥 阅读(6303) 评论(0) 推荐(2) 编辑
摘要:原始数据 [('firstid', '1'), ('language', 'g'), ('lastid', '199'), ('sale', '759'), ('saledate', '16. Mai 2018'), ('section', 'Moderne Kunst'), ('action', 阅读全文
posted @ 2018-06-08 18:17 淋哥 阅读(3094) 评论(0) 推荐(0) 编辑
摘要:使用webdriver提供的 save_screenshot 方法: 图片: 阅读全文
posted @ 2018-06-08 10:04 淋哥 阅读(1480) 评论(3) 推荐(0) 编辑
摘要:在爬取国外的某个网站的时候,刚开始他们是封ip,优化好ip池,准备大展身手的时候,数据顺利的爬取完毕后,发现数据有重复的。然后研究了一下, 最后的原因是他们的后台发现是爬虫以后,直接给抛出假的数据。上证据: 解决办法: 每个ip的访问次数尽量的少,尽量用多的ip抓取,抓取速度尽量的慢一些。 阅读全文
posted @ 2018-06-05 17:32 淋哥 阅读(2112) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示