163相册验证码图片的识别手记之二 --- 识别[转]

声明: 此文章只是记录我在处理163相册验证码图片识别过程时的想法思路,在此发表只是纯粹基于技术探讨目的.因此在文章中不会提供任何源码下载!!任何人利用这里介绍的方法所做任何事情而出现的责任本人概不负责!!如果需要转载此文,请注明原作者和出处!!

识别验证码一般是要经过“去干扰”，“切字”，“识别”三步处理。

一、切字：

切字即是将图片里的每个验证码都分别“切”开，这样才能进行下一步的验证码识别，并且“切字”切出来的“字”顺序也关系到识别出来的字符顺序，比如以下验证码样例图片：

则应该需要切出“7”，“4”，“3”，“7”，“7”五个字图。

对于不同的验证码图片，“切字”的方法也不尽相同，如对于一些验证码出现位置固定的验证码图片则可以直接从图形中分析出字坐标，再进行“切字”即可。而对于一些采用了“变位”干扰的验证码图片（如163相册的）就不能采用固定坐标来“切字”了，并且对于某些字符相连的验证码图片（如Google的），“切字”比“去干扰”还更头痛！！（-_#碰到这类的验证码图片，我一般放弃。咔咔！）

对163相册验证码图片进行“切字”其时还是很简单，因为验证码字符之间是没有任何相连，只是采用了“变位”干扰，但对于这种图形使用“去白拆分法”（嘿嘿，这方法名是我自己名的命)则基本是万能方法。

去白拆分法：

也就是先将空白的头尾行/列去掉，再按空白列拆分为多个子图，再将这几个子图的头尾空白行/列去掉，经过这几步处理后，那些拆分出来的子图就是最终“切”出来的验证码字图了。

1，去白：去除验证码图片的头尾空白行/列

比如上面的验证码图片(为了便于说明我在画板程序中打开样例图并将图形放大了6倍和显示网格）：