2011年1月19日
摘要: 知名的开源OCR引擎Tesseract 3.0版本日前发布,可以在项目网站下载:http://code.google.com/p/tesseract-ocr, 新版本支持中文,中文语言包定义http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz。Tesseract是Ray Smith于1985到1995年间在惠普布里斯托实验室开发的一个OCR引擎,曾经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2006年,Google邀请Smith加盟,重启该项目。目前项 阅读全文
posted @ 2011-01-19 23:28 baizx 阅读(2053) 评论(0) 推荐(0) 编辑
摘要: 转发-来自http://www.redicecn.com/html/Python/20101209/204.html与之前的版本http://www.redicecn.com/html/yuanchuangchengxu/20101205/201.html相 比,这个使用了多线程。验证时间由原来的20分钟缩短到现在的1分钟左右。 直接上源码:proxy_verify.zip与之前的版本http:/... 阅读全文
posted @ 2011-01-19 20:16 baizx 阅读(2340) 评论(0) 推荐(0) 编辑
摘要: 用Python多线程抓取并验证代理(转)2009年03月19日 星期四 13:56因为工作的关系,我写过许多个抓取网站信息的程序。最简单的,只要用Python的urllib2.urlopen()函数就可以了;然后,有个网站喜欢封人,所以,得找一批代理,轮流抓它的信息;有的网站不允许程序抓取,所以,就得加入一些头信息;有的网站需要登录,这时就要用到Cookies;最后,为了提高效率,最好是使用多线程... 阅读全文
posted @ 2011-01-19 17:17 baizx 阅读(2143) 评论(0) 推荐(0) 编辑