汉字识别关键技术与应用 - XiaoNiuFeiTian

1. 建立最完整的汉字图像特征库

通过网上抓取和相关汉语字典的搜集，建立最大的汉字字库，并通过图片切割的方法获取不同字体下的汉字图像，提取图像特征(GIST特征和SIFT特征)建立完整的特征库。

2. 特征过滤和SSC算法压缩特征存储，满足低配置移动平台的限制条件

由于汉字数量非常多，汉字字体繁多。所以建立的汉字图像特征库所占用的存储空间很大(>2G)。其带来的计算量超过了一般移动平台设备的计算能力。因此为了适应移动平台设备的计算能力和存储能力，本文首先对图像特征进行过滤，然后通过SSC相似性敏感压缩算法，将特征库编码成二进制的特征库，极大的压缩了特征库的存储空间。

3．利用高维索引算法提高汉字识别的性能

汉字图像的识别，首先提取待识别汉字图像特征，然后在建立的图像特征库中匹配。在匹配的过程中，传统的线性匹配算法消耗的时间相对较多。如果识别的书体增加，识别的时间也会线性增加，其拓展性不强。因此采用高维索引算法建立高维空间进行匹配，这样特征库的规模与匹配时间呈非线性关系。当特征库规模达到某个值时，其消耗的时间为常量，时间效率更高。

4．应用神经网络和传统识别方法相结合的方法进行书法字识别

针对书法字鲜明的特点，本文使用卷积神经网络对书法进行风格分类，去除书法风格多样性对于书法识别的影响。然后通过传统的识别算法再对该书法字图像进行识别，提高了书法字识别的准确率。

5．开发Windows和Android平台汉字识别软件

针对本文提出的汉字识别算法，将其应用在实际的开发中。为此研发了基于Windows平台和Android平台的汉字识别软件。其识别速度快，准确率高，给予用户良好的用户体验，给书籍的数字化以及用户的阅读带来极大的帮助。

posted on 2019-10-18 10:41 XiaoNiuFeiTian 阅读(402) 评论(0) 编辑收藏举报

刷新页面返回顶部