06 2018 档案
摘要:原始图片: 降噪后的图片 实现代码:
阅读全文
摘要:在计算机中彩色图片是由像素点组成,像素点由R(红)G(绿)B(蓝)三原色组成,在验证码识别过程中,一般把需要识别的字符称为前景,其他的称为背景 灰度化:即将彩色图像转化为灰度图像,一般有以下三种方法 1)最大值法:命R、G、B的值等于三者中最大值,即R=G=B=max(R,G,B),这种方法会形成亮
阅读全文
摘要:今天无事写一遍关于爬虫对计算机的影响,主要是给小白同学普及一下爬虫的基础知识。 在我们写爬虫的时候,首先会想到开多线程,如果使用的语言是Python,很不幸,因为Python存在 GIL,在任何时候,CPU内只有一条线程在运行,但是Python的多线程也能提高爬虫的速度,并且我们用python的多线
阅读全文
摘要:原始数据 [('firstid', '1'), ('language', 'g'), ('lastid', '199'), ('sale', '759'), ('saledate', '16. Mai 2018'), ('section', 'Moderne Kunst'), ('action',
阅读全文
摘要:使用webdriver提供的 save_screenshot 方法: 图片:
阅读全文
摘要:在爬取国外的某个网站的时候,刚开始他们是封ip,优化好ip池,准备大展身手的时候,数据顺利的爬取完毕后,发现数据有重复的。然后研究了一下, 最后的原因是他们的后台发现是爬虫以后,直接给抛出假的数据。上证据: 解决办法: 每个ip的访问次数尽量的少,尽量用多的ip抓取,抓取速度尽量的慢一些。
阅读全文