FlyingPenguin
Leaning. Thinking. Doing.
摘要: 因为工作的关系,我在去年下半年做了几个验证码识别的项目。做完之后,觉得其实验证码识别并不是什么很困难的项目,只要能针对要识别的图片进行内容结构上的分析,将内容分成几个部分,针对不同部分用好的对策进行处理,把图片有意义的内容(例如数字或者字符)分离出来。最后使用一些类似K近邻或者相似度的办法,和手工做好的模板进行匹配,对于国内网站的验证码,大都可以识别出来。当然,我写这些文章的目的,并不是想教别人用爬虫去爬别人的暗网数据,也不是想教别人写抢票的工具,我只是针对这一类问题,记录一下自己工作中用到的方法和经验。这些方法,对于文本图像复原和损毁书籍的保护同样适用,虽然我现在还没有机会接触到这方面的工作 阅读全文
posted @ 2014-01-11 22:41 FlyingPenguin 阅读(652) 评论(0) 推荐(1) 编辑