随笔分类 -  OCR

摘要:OCR一般分为两种:1,根据给定的字符特征集合,提取未知字符的特征进行匹配识别;(典型例子:GOCR)2,不知道字符特征,但给出提取特征的规则,通过机器学习training来获取某个字符集的特征集,对未知字符进行匹配识别。;(典型例子:tesseract)第一种方法简单,在某些场合很高效,但比较局限,字符集不能太大,比如汉字,不可能每个字符都去人工的找特征,只能是用在字符集较小的情况。第二种方法比较通用,可以应用于任何字符集,但是在前期训练的过程中必须人工教导,后期识别过程与第一种方法类似。tips:网站验证码可以随机的或正或反或倾斜的字符,现在的OCR都没有考虑对付这种情况,因此maybe是 阅读全文
posted @ 2013-11-08 11:03 *神气* 阅读(795) 评论(0) 推荐(0) 编辑