历史与未来,带你了解深度学习OCR

转载:https://zhuanlan.zhihu.com/p/363523508

1. OCR基础

光学字符识别(Optical Character Recognition)简称OCR,是一种能够从图像或者视频中自动识别文本内容,自动转化成机器可读、可处理的结构化字符信息的技术,发挥着计算机“眼睛”的功能。OCR是机器与现实世界进行交互的重要基础设施,也被称为最“接地气”的人工智能技术,现已广泛应用在金融,政府,物流,医疗,教育等多个领域。在数字化的浪潮中,OCR将进一步提升信息采集的效率,降低人工成本,极大加速产业转型。

2. OCR的发展历程

1929年,OCR概念首次被科学家提出,到了20世纪60年代~70年代,各国已经开始了OCR的正式研究,但早期的识别研究,主要是以识别数字为主。随着互联网的发展,海量训练数据的持续积累,待引入深度学习之后,OCR再一次取得了飞跃性发展——使用范围明显扩大。在这篇博客中,我们将基于深度学习的OCR技术称为深度OCR,深度学习出现之前的OCR称为传统OCR。

3. 传统OCR

在AlexNet在ImageNet夺冠以前,计算机视觉(CV)算法在OCR领域占主导地位。标准的处理流程主要包括:图像预处理、文本(字符)检测、字符分割、字符识别、字符识别以及识别结果后处理。其中图像预处理主要是对图像的成像问题进行修正,包括几何变换(透视、扭曲、旋转等),去模糊、光线矫正等。

经典的传统文本检测算法多是一个自下而上的过程,应用的算法主要分成连通域和滑动窗口两个方向并且主要依据人工设计的特征。而常用的字符识别算法主要包括图像分类以及模板匹配等。

受限于传统计算机视觉算法,传统OCR仅在比较规整的印刷文档上表现良好,如质量好的扫描文档。因为传统OCR常依赖于复杂的流程优化和手动设计去适配场景,场景通用性较差,在不同的业务场景下,常需要大量的手动微调来适应差异;复杂场景(如低分辨率、图像模糊、图像退化等场景)之下,文字识别性能和准确率都不够理想。

4. 深度学习OCR

2012年,随着深度学习算法在图像分类任务上取得了巨大的成功以及后来的物体识别算法研究的进展,OCR领域也引入了深度学习的思想——使用卷积神经网络(CNN)来取代传统的手工特征设计。深度学习OCR主要分为“独立两阶段方法”和“端到端的文本定识方法”。

“独立两阶段方法”会对文本检测和文本识别进行单独建模。文本检测模块主要是负责对文本区域以及方向的检测,目前常用的文本识别算法包含经典的物体识别算法(比如:SSD);物体分割算法(比如:PixelLink)以及特定的文本检测算法(比如:CTPN)等。不同的算法具有不同的特性,如基于分割的算法,虽然不受限文本大小以及形状,但对距离近的文本行容易出现文本行粘连的问题。

文本识别模块是对检测出的文本框进行文本识别,主要方法是通过卷积神经网络来提取文本图片特征作为输入,引用LSTM+CTC技术或者基于attention来识别不定长的文本内容。CTC技术能有效的捕获输入序列的上下文依赖关系,解决图像和文本字符对齐的问题,但因为CTC解码的特征歧义性,需要大量训练数据才能得到理想的准确率。基于attention的文本识别具有天然的可解释性,可以通过学习权重来定位到相应的特征向量,有效地提升了OCR模型的特征表达能力。

“端到端文本定识方法”的主要思想是整合文本检测和识别到一个网络进行训练,能够更好地共享权重以及整体优化模型,避免“独立两阶段方法”训练下的信息丢失。

5. 复杂场景下的OCR挑战

深度学习算法出现使得OCR技术出现了显著的提升,但是与人类理解图片文字的能力,依旧存在一定差距。

在现实场景中,影响识别效果的复杂因素包括:复杂背景、低分辨率、字符变形、多语言混合、图像退化,文本字符残缺以及形变等。随着各类OCR应用的增加,对OCR的识别性能也提出了更高的要求,比如,云端OCR需要的“低延迟”“高并发”,移动端OCR常被需求“强兼容性”“高运行效率”等。

虽然深度OCR能较好的解决文本识别问题,但业务中需要将图片文档(卡证、表格等)文字结构化仍需要解决文档样式分析。2017年后,OCR开始引入自然语言处理技术(NPL),OCR技术和自然语言处理技术的结合赋予了OCR技术真正理解文字内容的能力,语义信息的关联可以改善业务端到端的OCR解决方案。

6. 领创智信OCR技术的创新与突破

领创智信OCR技术的应用,适配场景主要包括:卡证识别和行业表格文档识别,同时也提供移动端的OCR质量检测服务。领创智信深耕人工智能领域多年,业务从东南亚市场逐步拓展到全球市场,对我们自主研发的OCR技术性能的扩展性提出了更高的要求。如何能够更快、更低成本地开发出支持识别多种证件,且保持高效、精准识别效果的OCR服务,这是我们要迎战的技术挑战。

在实际的业务落地过程中,领创智信不断总结经验,致力于提供最优质的OCR服务,随着业务的不断增长,领创智信的OCR技术也在日渐完善,其创新和突破包括:

  • 自动生成文本数据:减少对实际场景数据的依赖,降低数据采集和标注的成本。
  • 流水线化OCR开发:领创智信搭建有一套自主研发的Auto OCR平台系统,在这个平台上,数据采集完后,能自动将数据标注。领创智信将模型开发以及复杂数据的挖掘集合到一个完整的生态系统,可以有效加速模型的迭代。
  • 自动版式的分析:取代传统的人工设计规则来实现对多种卡证的支持,减少对算法人员依赖,扩展性更强。
  • 提供OCR质量检测SDK来完善整个OCR研发生态系统:此套SDK可以覆盖检测从用户照片采集到云端识别的整个OCR流程,能够更加灵活的控制采集质量,满足用户的定制化需求,提升OCR的用户体验。

7. 深度学习OCR的未来

作为计算机“眼睛”功能的重要组成部分,OCR将会随着技术的发展,不断被应用在更多的领域。OCR技术结合自然语义识别技术,机器将会真正具有“理解力”——即精准理解外在世界文本内容的能力,提供文本结构化的能力。未来,OCR服务载体还会更加多样化,不仅包括多样的终端载体(如智能手机、智能电子产品等),云端服务也会更加多样,并降低使用门槛和成本。

目前,深度学习OCR已广泛应用于卡证识别、票据单据识别、汽车相关识别(驾驶证、行驶证、车牌等)、行业文档识别等传统领域,并开始深入服务于互联网广告推荐系统的图像内容提取,广告审核以及用户理解等,但端对端的OCR技术依然还有待完善。在未来,当计算机能够更好理解现实世界的文字内容时,繁琐、耗时的文档录入工作将变得更加轻松、高效。

 
posted @ 2023-08-04 16:25  小学生II  阅读(267)  评论(0编辑  收藏  举报