OCR验证码识别
最近,想做一个刷票的程序,有验证码,好在验证码不是很复杂,所以就想着能不能识别。开始想用svm来分类,但是不知道怎么回事,识别率达不到要求,可能中间的某个环节没有做好。听说神经网络也很好,但是本人对神经网络不怎么熟悉。
后来到网上查找资料的时候,有人用ocr来做验证码的识别,开始觉得有点杀鸡用牛刀的感觉,但是苦于没有其他的办法,只能一试。开始想用office的ocr组件,但是发现根本就识别不了。后来发现开源的Tesseract比较好,但网站上提供的是c++的代码,个人对c++不是太熟。最后我找到了Tesseract的.net版本,下载地址如下:http://www.pixel-technology.com/freeware/tessnet2/。另外发现这个用法非常简单,注意还需要下载语言包,我这里识别的是纯字母的,所以就用英文的语言包了。另外为了提高验证率,还可以自己进行训练,由于我的需求比较简单,我就没有做这个步骤了,直接使用英文语言包了。
InitializeComponent();
ocr = new tessnet2.Tesseract();
ocr.SetVariable(“tessedit_char_whitelist“, “0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ“);
ocr.Init(Application.StartupPath + @”lngeng“, “eng“, false);
WebClient wc = new WebClient();
byte[] oimg = wc.DownloadData(“some url“); // 这里我地址做了隐藏,自己修改成要识别的地址吧
Bitmap bp = new Bitmap(new MemoryStream(oimg), true);
pictureBox1.Image = bp;
bp = ImageProcess.RemoveGreen(bp);
bp = ImageProcess.ToBW(bp);
pictureBox2.Image = bp;
List result = ocr.DoOCR(bp, Rectangle.Empty);
string txt = “”;
foreach (tessnet2.Word word in result)
{
txt += word.Text;
}
textBox1.Text = txt;
另外,还有一个问题,我这里先对图像进行了简单的预处理,去除干扰,转换成二值图像。不知道各位园友还有没有更好的方法。我的这种方法,对于简单的验证码,效果还不错。
本文基于署名 2.5 中国大陆许可协议发布,欢迎转载,演绎或用于商业目的,但是必须保留本文的署名小橋流水(包含链接)。如您有任何疑问或者授权方面的协商,请给我发邮件。