Suzanne Briet (1894–1989) is recognized for her pioneer role in laying the foundations of modern information science. In her manifesto titled Qu’est-ce que la documentation? (“What is documentation?”), she defines a document as evidence in support of a fact; a physical or symbolic sign, preserved or recorded, for representing, reconstructing or demonstrating a physical or a conceptual phenomenon. Thus, a document documents something, it is a representation serving as evidence for some purpose. We can also say that the information it provides is presented in such a way that the producer of the document becomes able to convey this information to its users/readers, in an intelligible way. This again means that producer and reader use shared representation rules for the information.
苏珊娜(1894—1989)奠定现代信息科学基础上的先驱角色。在她题为(“什么是文档?)她将文件定义为支持事实的证据;保存或记录的物理或符号符号,用于表示、重建或演示物理或概念现象。因此,一个文档记录了一些东西,它是一种表示,作为某种目的的证据。我们还可以说,它所提供的信息是以这样一种方式呈现的,即文档的制作者能够以一种可理解的方式将该信息传达给其用户/读者。这再次意味着生产者和读者使用信息的共享表示规则。
Compared to oral communication, the main difference is the preservation of the representation, so that the consumer of the information does not need to communicate directly and immediately with its producer. The most ancient and well-known document type is of course the written document; the introduction of writing was of such importance for mankind that historians usually consider that history starts at that moment, when knowledge of the past can be recovered from written records.
与口头交流相比,主要的区别在于保留了表达方式,使得信息的消费者不需要直接、即时地与信息的生产者进行交流。最古老和最著名的文献类型当然是书面文献;对人类来说,文字的引入是如此重要,以至于历史学家通常认为,历史始于那个时刻,那时可以从书面记录中恢复对过去的认识。
n Chap. 1 (A Brief History of Documents and Writing Systems), Henry Baird introduces us to writing systems and briefly reviews the history of written documents. Throughout the centuries, these documents have been physically produced on various materials, using many different writing or printing processes, until this century’s documents which are very often originally available in electronic format. Elisa Barney Smith reviews the evolution of these creation processes and equipment in Chap. 2 (Document Creation, Image Acquisition and Document Quality). She also introduces us to the numerous acquisition processes for converting physical documents into images for further processing by appropriate software tools.
在第一章(文献和书写系统的简要历史)中,亨利·贝尔德向我们介绍了书写系统,并简要回顾了书写文档的历史。几个世纪以来,这些文件一直是在各种材料上实际制作的,使用许多不同的书写或打印过程,直到本世纪的文件,这些文件最初常常以电子格式提供。Elisa Barney Smith在第二章(文档创建、图像采集和文档质量)中回顾了这些创建过程和设备的演变。她还向我们介绍了许多采集过程,将物理文档转换为图像,以便通过适当的软件工具进行进一步处理。
When people hear about document image processing, they probably think first and foremost of optical character recognition (OCR). But in the same way as children do not only learn to decipher characters, but progressively learn to understand complete documents, document analysis systems also have gone much further than just OCR. This evolution from character to full and complex documents is presented by Henry Baird and Karl Tombre in Chap. 3 (The Evolution of Document Image Analysis).
当人们听说文档图像处理时,他们可能首先想到的是光学字符识别(OCR)。但同样地,随着孩子们不仅学会了破译字符,而且逐渐学会了理解完整的文档,文档分析系统也已经远远超过了OCR。亨利·贝尔德(Henry Baird)和卡尔·汤姆布雷(Karl Tombre)在第三章(文档图像分析的演变)中提出了从文字到完整复杂文档的演变过程。
A common, fundamental toolbox for all these document analysis systems is that of image processing algorithms applied to document images. Image processing as a whole would deserve a full handbook on its own, but in Chap. 4 (Imaging Techniques in Document Analysis Processes), Basilis Gatos presents an overview of the most fundamental image processing methods needed in any document processing and recognition system.
所有这些文档分析系统的一个共同的基本工具箱是应用于文档图像的图像处理算法。作为一个整体,图像处理本身应该有一本完整的手册,但在第4章(文件分析过程中的成像技术)中,Basilis Gatos概述了任何文件处理和识别系统所需的最基本的图像处理方法。
1. A Brief History of Documents and Writing Systems
Contents
Introduction. ........................................................................................ 4
The Origins of Writing............................................................................. 4
Writing System Terminology. ..................................................................... 4
Reading Order and Segmentation. ................................................................. 5
Types of Writing Systems. ......................................................................... 7
Origins of Writing Media.......................................................................... 8
Punctuation.......................................................................................... 9
Conclusion. ......................................................................................... 9
Cross-References. .................................................................................. 10
References. .......................................................................................... 10
Further Reading. ................................................................................ 10
摘要
This chapter provides a review of the history of written language, with emphasis on the origins and evolution of characteristics which have been found to affect – and in some cases continue to challenge – the automated recognition and processing of document images.
本章回顾了书面语言的历史,重点介绍了影响文档图像自动识别和处理的特征的起源和演变,在某些情况下,这些特征会继续受到挑战。
简介
高尔丰富的书写历史说明[2]清楚地表明,除了手写或机器印刷在平面上的文字外,人类的交流还包括岩画(许多史前人的作品)、留言棒(澳大利亚土著人的作品)、用点和线标记的豆子(印加文)、奎普文(用头发或棉线打结的作品);印加加加中国、非洲、波利尼西亚等国)、万普姆带(北美土著)、科里贝壳组(尼日利亚约鲁巴)和理货棒串(托雷斯海峡群岛)。尽管以上这些都还没有被计算机自动读取,但可以想象,文档图像分析研发界有朝一日会尝试使用它们。
书写的起源
高尔区分了“思想写作”(即“直接传达思想”,例如“树的画”是指“树”)和“声音写作”(即通过一组传统的符号使语音可见)(桑普森称之为“声门图”系统[7])。帕克斯[6]将西方早期语言与写作的关系描述如下:
在古代,书面文字被视为口头文字的记录,文本通常被大声朗读。但从六世纪开始,人们对书面语的态度发生了变化:书面语被认为是通过眼睛直接向大脑传递信息,塞维利亚的伊西多尔(约560-636ce)可以表示对沉默阅读的偏爱,沉默阅读随后成为一种规范。
丹尼尔斯和布莱特1996年对世界写作系统的调查列出了50多个主要家庭,其中一些家庭有十几个或更多的子家庭。书写习惯(尤其是语音)的巨大多样性表明,许多书写习惯在很大程度上是武断的文化发明:当然,这种多样性仍然是自动识别面临的最令人困惑的技术挑战。写作系统进化的关键阶段也没有被完全理解,而且可能一直如此。或许正因为如此,目前的写作体系显得非常混乱:几乎没有什么广泛适用的规则是显而易见的。即使是有着悠久历史记录的系统,尤其是中国的系统,也倾向于挑战完全系统的分析。类似的悲观主义,毫无疑问被现代语言学的进步所限定,可能被扩展到数千种已知的语言中,其中只有一小部分享有书写系统。(2009)SIL族群(4)列出了6909种现存的人类语言,估计有7000到10000种不同的生活语言存在。
书写系统术语
首先,简要回顾一下用来描述书写系统外观的术语,就像现代文档图像分析系统通常做的那样,从一张纸(一个“页面”)的图像开始,并在其上墨迹信息。此图像可能包含文本区域和非文本区域的混合。文本区域通常包含组织成文本“行”的文本块(或“列”),文本“行”可以(根据语言)水平或垂直运行(很少以螺旋方式)。在一个块中,文本行通常是从上到下(对于水平行)和从左到右(对于垂直行)读取的;这种选择似乎是任意的,但有趣的是,它适用于许多古代文本以及几乎所有现代文本。文本行内的阅读顺序也因语言而异;在一些古代文本中,顺序从一行切换到另一行,因此如果一行从左到右阅读,那么下一行从右到左阅读(这是一个技术术语boustrophedonic,来自希腊语“如牛犁”)。文本行包含语言中单词的符号图像(和标点符号,讨论如下)。几乎在世界上,这些词的书写顺序与人们说话的顺序是一样的。
重新回顾基本术语,将文本行图像分割成哪些较小的元素?在所有西欧(和许多其他)书写系统中,“词空间”惯例有助于将文本行分解为“词”图像;尽管,这些图像可能包含标点符号,因此不能直接映射到语言文字上。即使在这些系统中,使用纯粹的“几何”线索(例如通过估计局部类型大小来缩放分隔字符的水平空间的分布)也很难可靠地实现自动分割:歧义通常需要符号识别的帮助,甚至需要更高级别的解译。
阅读顺序与切分
由于口语中的词是按时间顺序出现的,几乎所有的语音书写都是按空间线性排列的。相比之下,大多数写作媒体都是二维的(至少如此),但是从语音中复制出来的线性惯例很少利用这些额外的维度。一些“原始的”写作,如桑普森所讨论的尤卡希尔信息,不编码任何固定的语序,因此可以在多种叙述中“大声朗读”;一些现代的“超文本”写作,如数学和音乐,扩展到一个维度以外(本书稍后将对此作更多介绍)。一旦一页文本被分解(分割)成块和文本行,并推断出预期的阅读顺序,识别就面临一类非常简单的线性化问题
独立于文献分析界,语音识别(更广泛地说是计算语言学)研究与开发界从20世纪70年代开始发现了一类动态规划优化算法在分析时间序列问题中的威力。依赖于线性排序效率的方法包括文法、马尔可夫模型、隐马尔可夫模型、动态时间规整、有限状态传感器等。这些算法的进步,革命性地改变了其他领域,在20世纪90年代早期之前,在文档分析领域的渗透是缓慢的;但是这个过程现在已经开始了。大多数动态规划方法的效率取决于适用于许多一维问题但很少推广到更高维的特殊性质(通常称为“最优子结构”,早期也称为“最优性原则”),这一点并没有得到广泛的认识。从这个意义上说,许多二维(和更高维)优化问题似乎在本质上更难解决:这可能部分是因为布局分析方法的发展相对文本识别方法慢。
其他语言,尤其是主要的现代东亚语言,缺乏文字空间的约定,因此下一个层次的切分必须与单个符号直接相关。在一些书写系统,如阿拉伯语中,一个语言单词被写为一系列间隔开的符号组(“子单词”):真言空间与词间断句一起存在,从而使分割复杂化。许多手写体都是草书,其中一个单词中的许多(或全部)符号是相连的。即使在一些机器印刷系统中,如阿拉伯语,书法的影响仍然很强,字体的设计模仿谨慎但仍然是草书。
很自然地,假设所有这些依赖于语言和书写系统的策略都被建模并实现为一种分割算法,能够从文本行的图像中检测和隔离每个单独的符号,这些符号通常是书写语言的基本单位,例如字母表允许的字符形状或音节
然而,语言符号和符号图像之间的一对一直接映射的例外情况出人意料地频繁。连字(通常是有向图和缩略词)将两个或多个语言符号合并成一个书写字符。在一些书写系统中,例如中世纪的手稿,允许的缩略词的数量可以超过基础字母表中的字母数量。对文档识别工程的影响可能是令人望而生畏的:实际上,为了图像识别的目的,字母表已经扩展了,也许是一个很大的因素,增加了为每个类收集标记样本的工作。更严重的可能是,在文件图像中发现的“字符”集合在一开始可能是未知的;变化可能是在飞行中发现的;什么是合法的变化(不是印刷错误或曲解)可能不清楚;可能需要咨询专业的历史学家。从这个意义上说,许多书法书写系统,甚至在西方,都是“开放的”,缺乏一套固定的传统字体。
一个被正确隔离的符号的图像被称为一个图(一些权威人士更喜欢术语graphemes,这里称之为符号)。现在考虑从文档图像中分割的所有图的集合;字符分类器的任务是为每个图分配正确的语言字符标签(在压缩的情况下,正确的输出是一系列语言标签)。现在,由于打印(例如,文本大小、墨迹、纸张质量)、手写、成像(点扩展功能、扫描分辨率等)的变化无常以及甚至在分割样式上的变化,同一符号的图形可以预期在细节上有所不同。当然,这种变化是文本图像分类器设计的主要技术挑战。
但由于其他种类的变化,还有更深层次的挑战。在某些书写系统中,允许使用多个形状来表示单个符号:这样一组视觉上不同但语言上相同的字符形状有时称为异体字。作为分类器训练的一个实际问题,底层形状可能非常不同,因此必须将它们分为不同的类:在这种情况下,图像识别所需的类不能一对一地映射到语言类上。但是,从另一个角度来看,在训练过程中,不能在不同的同种异体图像之间进行概括可以被判断为可训练分类器技术不足的症状,如果这种批评是合理的,那么该技术难道不能在诸如图像质量的极端等其他变体之间进行概括吗?事实上,文档识别工程师经常感到有必要对训练集的标记、类的划分和组合、或将它们组织成树结构进行手动调整(语言学家可能认为这是不相关的、分散注意力的干预措施)。尝试分类树(CARTs)的一个动机是希望最小化这种可能是开放的手动“调整”;不幸的是,训练好的树总是在计算上令人望而却步或是弱启发性的。请注意,由于书写系统和排版惯例的某些“开放式”特征,这些问题甚至可能出现在高科技文化中的现代语言中。
此外,还有一个风格上的问题(和承诺):个人的写作个性就是一个例子,机器印刷中的字体也是一个例子;图像质量也可以作为一种风格来考虑(稍后将对此做更多介绍)。
书写系统类型
哈里斯1986年的写作系统史[3]试图将世界写作系统中使用的各种符号(他称之为“符号”)分类如下:
字母符号:一组符号,代表语音中出现的一整套辅音(如“s”)和元音(如“a”),如英语、最古典和现代的西方文字(可能“最终来自公元前2千年下半叶的北闪米特字母”)
音节:一组符号,每个音节一个(短辅音元音或辅音辅音组合),例如“ka”(日语)
符号学:一组“表示单词但不表示发音”的符号,如用“$”表示“美元”,在整个中国汉人系统中经常使用(日本和韩国也使用)
象形文字:以简化图片的形式表示其所代表的事物的符号,如用射线表示太阳的圆圈,也可以用某些埃及象形文字来表示
表意文字:符号“代表信息的整体概念,而不是它的任何特定形式”,如在箭头符号中表示方向
尽管这个分类法很简单(仍然有点争议),但对于本章的目的来说,它应该足够清楚。文档识别的主要含义是:(a)字母、音节和符号系统几乎支配了所有现代(和许多古代)脚本;(b)象形文字和表意文字系统的识别相对被OCR社区忽略(商业文档中的“徽标”识别除外),尽管随着“城市景观场景”的挑战越来越受到重视,包括交通标志的检测、隔离、识别和解释问题,以及迅速增长的“国际”标志和符号,这种情况可能会发生根本性的变化;(c) 字母表往往比音节表小得多,音节表又比符号集小得多,这对监督培训的工程成本有重要影响;和(d)虽然字母表和音节表通常是“封闭的”(完整的和固定的),但符号系统往往是“开放的”(不完整的,可自由扩展)。
很难把书写系统中所有的变化都概括出来。然而,在几乎所有的语音书写系统中,一个强烈的倾向是对单个符号图像使用紧凑的“物理支持”:也就是说,它们都倾向于在近似大小相等的小的非重叠的细胞中进行拟合。
文档图像识别的含义是令人望而生畏的:为了处理一种新的语言,必须克服几个障碍,包括:对所使用的所有字形的描述,字形样本的收集(每个字形有许多样本,每个不同样式有更多样本),页面布局惯例的分析,积累字典(词汇或词法分析器),至少。其中一些障碍可能需要专业语言学家的帮助。
写作媒介的起源
早期的书写材料种类繁多:高卢突出了石头、树叶、树皮、木材、粘土、皮肤、动物骨骼、象牙、竹子、玳瑁和许多金属,尤其是铜和青铜。虽然相对容易腐烂,但一块埃及木制书写板从公元前2000年左右就保存下来了。公元前1700年左右,“一些最早的中国文字”就保存在“甲骨文”的骨头上。蜡制书写板,方便重复使用,最早起源于公元前8年,被古希腊人和罗马人广泛使用;然而,罗马法律是通过在门上展示的铜板上的铭文公布的。
某些书写媒介的生产规模显著增长,甚至在古代,从美索不达米亚的粘土板开始,一直到埃及的纸莎草。在南亚和东南亚,直到近代,棕榈叶一直是主要的培养基。大量的棕榈叶保存下来,其中许多包含耆那教、佛教和印度教经文:这些已经成为严肃的文档图像识别研究的对象。全世界对保存和获取历史文献的兴趣迅速增长,似乎很少有这些神秘的文献类型没有受到影响,并揭示了许多新的技术挑战。
请注意,上述三种书写文化中的每一种都汇集了大量的文件,这些文件显然旨在在材料、大小和外观上高度统一,包括符号的书写顺序和形状。大量受过统一训练的专业文士干部,证据确凿。现代写作风格的广泛多样性——实际上是丰富的创造性变化——今天人们可能会想当然地认为这不是早期社会的常态,它只随着工业时代的到来而加速。当今文档识别研究中的一个重要技术趋势是对样式意识方法的兴趣,这种方法可以利用输入图像上已知(或仅仅是猜测)的一致性。书面语料库越老,就越有可能以统一的风格进行构建:因此,现代风格意识方法在应用于前现代文档时可能会特别有效(甚至令人惊讶)。
另一个重要的含义是,每一种媒介都可能,而且往往会影响写作风格的演变。例如,由于雕刻(凿)大理石所特有的技术限制,在纪念性的古典碑文(例如具有高度影响力的图拉真柱)中引入了衬线。衬线进入现代的生存表面上是由于美学,尽管人们可以说它们也有助于易读性。
一些写作材料(而且仍然)比其他材料要贵得多。相对持久的媒介(如牛皮纸)的花费推动了精心设计的中世纪抄本惯例的发展,以节省空间,包括大量简洁的缩略词和变音符号。
标点符号
帕克斯在1993年进行了大量的图解研究[6]表明,至少在西方,到了中世纪,
标点符号成为书面语言的重要组成部分。它的主要功能是解决文本中的结构不确定性,并表示语义意义的细微差别::。
然而,标点符号的功能却很少受到古典甚至现代计算语言学家的关注。一个例外是Sproat 2000年的正字法形式理论[8]包含了几个现代书写系统,包括俄语、汉语和韩语:他的主要目的是分析编码文本语料库,以便驱动(控制)一个可理解的文本到语音合成系统;他指出,这需要在“浅”和“深”两个层次上建立有限状态模型;他还指出,这种完整的模型不太可能从纯统计推断的训练数据中学习。Nunberg 1990年深思熟虑的研究[5]表明,英语中的标点规则比最先进的OCR机器中使用的正则表达式要复杂得多。
结论
在书写系统的历史上,一些对文档图像分析研究和开发社区具有潜在重要性的明显趋势,据所知,没有得到任何形式的持续学术关注。目前作者还不清楚对黑白(双层)文档早期和持续占主导地位的原因的仔细研究。尽管人们对某些(主要是西方和亚洲)字母(以及音节、表意文字系统等)的演变了解得很多,但有关从开放符号集到有限和固定符号集的关键转变的细节却常常缺失。(有趣的是,将这一事实与所有现存语言中词典的持续开放性进行对比。)在大多数有着悠久历史的书写系统中,符号图形已经从复杂的形式稳步发展到相对简单的形式。在活生生的记忆中,汉文书写系统经历了对更小符号集和简化字形的戏剧性改进。一个现在看来异常甚至尴尬的事件发生在早期OCR系统的制造商对处理自然出现的印刷文本感到绝望,并发明了OCR-A和OCR-B等“OCR字体”以使他们的问题更简单,然后认真地(如果没有效果的话)提出了广泛的商业用途。
2 Document Creation, Image Acquisition and Document Quality
Contents
Introduction. ........................................................................................ 12
Document Creation Materials...................................................................... 12
Writing Substrates. ............................................................................. 12
Inks. ............................................................................................. 17
Writing and Printing Processes. ................................................................... 20
HandHeld Writing Instruments. ............................................................... 20
Machine Printing ............................................................................... 23
Acquisition Methods. .............................................................................. 39
Flatbed Scanner and Fax Machine Acquisition............................................... 39
Cameras and Mobile Devices. ................................................................. 44
Video............................................................................................ 46
Other Specialty Modes. ........................................................................ 47
Document Quality.................................................................................. 48
Factors Affecting Document Quality.......................................................... 48
Effects of Document Quality on Analysis and Recognition Results. . .... .... ..... .... .... .. 50
Models of Document Degradations. ........................................................... 51
Conclusion. ......................................................................................... 59
References. .......................................................................................... 60
Further Reading. ................................................................................ 60
摘要
本文概述了用于创建文档的材料、创建打印文档的方法以及获取该文档的数字版本的方法。介绍了当前和历史的方法、材料和过程。除此之外,还讨论了图像降级可能进入进程的位置。所有这些都与这些方面如何影响文档识别能力有关。
简介
文档可以手工创建,也可以通过机器创建。在这两种情况下,有几个因素影响最终外观,包括含量、颜料、将颜料转移到纸张上的仪器以及纸张本身。人或机器如何感知文档外观取决于文档是如何获得的。纸上被认为是好质量的东西,当直接被人眼接收并被人脑处理时,当数字化后再在监视器上观看时,并不总是被认为是好质量的。同样,一个人认为原始或数字化版本的良好感知质量并不总是能够使高精度机器识别文档内容的质量。
为了帮助解释文档源与其质量之间的关系,本章确定了质量可以降低的连接点,如其所述:
•材料——材料,如纸张和墨水;人员:以及用于创建文档的机器。
•流程-手工或机器创建打印文本的当前和过时流程。特别是过时的过程是为技术档案工作者在历史文献收藏中看到。
•获取方法——将文件转换为数字形式的方法,有助于文件图像的自动处理和识别
•模型-记录生产模型、质量度量以及质量如何影响识别结果。
文档创建材料
这是对一些材料的概述,这些材料随着时间的推移被用于创建文档,并显著地塑造了文档的外观。材料包括文件出现的基底,通常被认为是“纸”的一种形式,以及显示书面信息的墨水。纸张和墨水的选择部分是历史性的,由可用的材料和技术决定,部分是由书写或印刷过程决定的。将油墨转移到承印物上可以用书写工具手工完成,也可以用印刷机完成。图2.1包括不同材料和书写和打印方法的示例,以及它们首次引入的时间。每一个都引入了一个影响最终文件外观的新变量。
书写基底
书写基质是书写表面。令人惊讶的是,尽管自从最早的人类开始写作以来,已经有很多人开始写作,但许多基础的基础并没有改变那么多。可供研究的最古老的文字之所以被保存下来,是因为它是在石头上书写或雕刻的,或者是因为它被印在泥板上。虽然这些材料寿命长,在某些地区也很丰富,但并不特别便于携带。几乎任何能保留刷子或钢笔痕迹的便携式物质都被用作书写基质。这包括树叶、树皮、木板和布。在中国,人们在竹竿上发现了古老的文字,在印度,人们在桦树皮和棕榈叶上发现了古老的文字。玛雅人用无花果树的内部树皮在“纸”上写字,树皮上覆盖着一层薄薄的石膏状物质,文字被画在“纸”状的灰泥画上。和今天的书一样,这些书被扇形折叠成书的形式。
从纸莎草到羊皮纸和纸
最著名的古代书写材料是纸莎草,现代的文字纸就是从纸莎草中衍生出来的。早在公元前3500年,埃及人就用纸莎草来造纸。纸莎草是一种叫莎草的芦苇。去掉外皮,露出被压扁的柔软的内髓,并以直角重叠层铺设条带。这是通过敲打髓部直到植物组织破裂,并从组织的汁液形成一种胶水,将带在一起。材料在压力下干燥,一面抛光,形成一个光滑的表面,在上面写字。标准的书写单元,或者我们今天认为的“页面”,是由其中一个单元的大小演变而来的。其中的几个单元(大约20页)是通过将一个单元的边缘重叠到另一个单元的边缘,并以类似的方式将这些边缘粘合起来形成一个卷,这个卷被称为拉丁语单词“to roll”的卷。每个卷包含的信息大约相当于一本现代手写书的7到10页。单词book来自港口的名字Byblos,在铁器时代晚期希腊人通过它进口纸莎草
羊皮纸是一种书写材料,由拉伸和未经编织的动物皮制成,特别是小牛、绵羊或山羊。虽然皮革自公元前2000年起就被用于写作,但它储存得并不好,只能写在一边。羊皮纸在公元前2世纪的一种方法被开发出来,允许两面都用来书写,但里面的一面有一个更光滑的表面,羊皮纸就成为了书写的常用材料。在欧洲,从公元四世纪到文艺复兴和纸的引入,它成为主要的书写载体。用小牛或山羊的细皮制成的羊皮纸叫做牛皮纸。随着羊皮纸的使用,书写材料不再像今天的印刷书籍那样被卷起来,而是装订成册。为了印刷,拉丁圣经需要500多张小牛皮。制作书籍所需的兽皮数量使它们相当昂贵;因此,重新使用羊皮纸变得很常见。墨水是从羊皮纸上刮下来的,或者笔迹是以直角书写的,以便从视觉上区分新的笔迹和旧的笔迹。有了这种再利用的书籍被称为翻版,从希腊语“再刮一次”。即使有了这种再利用,依靠羊皮纸作为承印物的书籍产量也有限。
我们今天所认为的纸起源于公元一世纪的中国。中国人将造纸的过程保密了许多世纪,直到八世纪袭击了阿拉伯城市撒马尔罕,阿拉伯人俘虏了一些擅长造纸的中国人。随着阿拉伯人在欧洲的扩张,造纸业随之向西移动。欧洲第一家造纸厂于公元1100年在君士坦丁堡建立,造纸术一度在欧洲迅速传播,直到14世纪才在欧洲各地建立起来。在欧洲引进纸张导致书籍产量的增加,同时读者也在增加。
纸张生产
纸的生产首先是在水中把植物纤维切碎并还原成纸浆。一层薄薄的纸浆铺在筛子上,水被排出,形成毛毡。纸浆纤维被磨光并干燥。过程差异导致了现有论文的差异。纸是用手工方法生产的,已经有好几个世纪了,但这限制了纸张的数量或大小,而纸张可以在任何一次生产过程中生产。第一种机械化造纸工艺是1798年尼古拉斯·路易·罗伯特发明的,1805年亨利和西利·福德林将其商业化。
最初,造纸用的纤维主要由亚麻、黄麻、亚麻和大麻制成。从布破布中提取的纤维在17世纪是一种常见的来源。由棉纤维制成的纸叫做碎布纸。如今,这些纸张通常用于制作高质量的文件和钞票。18世纪开始试验使用稻草纤维,19世纪英国经常使用埃斯帕托草。开发了一种漂白工艺,可以用有色纤维制成白纸。从19世纪中期在萨克森州开始,大多数现代纸是由树纤维素制成的,发现这是一种合适的纸张来源,大大增加了纸张供应。木材通过机械或化学方法还原成纸浆。磨石间木浆的机械研磨引入了许多杂质,降低了纸张的质量。木质细胞壁是由木质素填充的纤维素网络构成的。机械研磨不能去除木质素,因此产量更高,但随着时间的推移木质素会使纸张变黄,使其变脆。另一种方法是添加苏打和硫酸盐等化学试剂,以分解将细胞结合在一起的木质素。如果化学试剂是苛性钠,柔软的蓬松纤维有利于封面和书写纸张。亚硫酸氢钙或亚硫酸氢镁能产生更坚固或更坚硬的纤维,从而制造出更适合印刷的纸张。随着时间的推移,这些酸会导致纸张和墨水的变质,所以硫酸钠是一种替代品,它能使纸张变得非常坚韧。化学制浆中的纤维比机械制浆中的长,因此,纸张会更结实。
无酸纸的pH值为中性,可以用温和的碱(通常是碳酸氢钙或碳酸氢镁)中和木浆和生产过程中产生的天然酸。它也不含木质素和硫。它适合存档,因为它不会在很长一段时间内变黄或变脆。如果有足够的碱性储备,这种纸可能能保存1000年。
直到十八世纪晚期,纸才基本上被铺好。纤维被放置在一个有长的平行链节的链状表面上,偶尔被一个垂直的间隙打断。这种模式可以在最后的论文中看到。在十八世纪,为了更好的印刷,编织纸被发展得更平滑。编织的金属丝网输送纸浆,纸张的纹理不再普遍。今天,编织纸被认为是一种更便宜的纸。水印,也被称为纸张标记,是有意压入谷物的图案。它们在十三世纪开始出现在纸上以表明起源。
废纸可以回收利用,代替原始的木材作为纸浆的来源。纸张必须粉碎,然后返回纸浆状态。一路上墨水必须漂白掉。当纸张返回纸浆时,纤维的长度减少了。这降低了用这种纸浆生产的纸张的质量。因此,它通常与原浆混合。
整理程序(Finishing Procedures)
纸张的表面特性影响着书写痕迹的视觉特性。墨水既可以放在纸纤维上,也可以被纸纤维吸收。欧洲人习惯于在羊皮纸上使用鹅毛笔,他们需要一种结实、耐刮擦、不易吸收的纸。施胶是在纸张上加入明胶、松香、淀粉、树胶或明矾,使纸张更硬,吸水性更低,从而抵抗水性书写墨水中的水。浆纱可以在纸片形成后,通过盆式浆纱,把纸放在明胶浴中,基本上用一层薄薄的胶水覆盖。另一种方法是,在纸张成形之前,在加工过程中,通过发动机施胶,纸浆与施胶材料混合。盆形纸比发动机上浆质量更高,因为上浆材料位于最有效的位置,但也更昂贵。上浆使纸张经久耐用,纸张的两面都可以用来印刷。
有好几种纸饰面。它们通常是颜料或载体(粘合剂)的涂层,如碳酸钙或瓷土。涂层可以产生哑光(暗或哑)、半哑光或光泽饰面。纸最初是用粘土刷涂的,以产生一个适合于精细筛选半色调的表面,用于最优质的摄影复制。机器抛光会产生更光滑的表面,通常用于杂志。铜版纸通常是白色的,有文字重量。光泽度会导致印刷时网点增加较少,因为油墨不会扩散太多。未涂布纸有白色和彩色两种版本。艺术用纸是一种上釉的纸,涂上一层瓷土,然后卷起来,使其非常光滑,以便更好地打印插图文档的半色调/屏幕。然而,瓷土涂料与纸张中的酸发生反应,使纸张变脆,褶皱很快就会开裂。1687年纸张首次添加了着色,1770年首次出现了机器刻线。
压延是一种通过一系列钢卷使纸张获得光泽或增加表面平滑度或不透明度的精加工操作。最小压延产生蛋壳或古纸,它有一个粗糙的纹理,是非常“不眩光”,这可以增加可读性。超级压光纸是通过在热辊和冷辊之间反复轧制纸张而得到的一种光滑光亮的表面。机械抛光纸有相当广泛的压延和用于杂志,因为完成使印刷复制非常精细的半色调。
纸张分类、用途和质量
纸张生产材料和工艺影响纸张质量。纸张选项会影响它们的用途、特性和质量。今天买纸要考虑三个因素:等级、白度和不透明度。高级纸比其他纸具有更精细的平滑度、白度和更大的不透明度。此外,还有四种基本的纸张分类需要考虑:债券、书籍、封面和卡片纸。邦德纸(Bond paper)是一种低档纸,在大多数办公室用于印刷和复印。邦德纸有半硬表面,书籍纸有多种纹理。粗糙的纸张很可能会有油墨脱落,在最初的印刷过程中,油墨从未接触到纸张。墨水根据孔隙率扩散。填充材料,如白色粉笔、粘土和二氧化钛,经常添加到纸浆中,以使其具有更好的不透明性和表面光洁度。封面和卡片通常不用于制作文件(表2.1)。
表2.1纸张特性、用途和质量
纸张按厚度分级。在北美和英国,这是通过测量一卷纸的重量来表示的,它是按照该等级纸的基本尺寸切割的。一个ream有500页,但在过去,ream有480-520页。粘合纸的基本尺寸为17 22英寸。对于书用纸来说是2538英寸;因此,20磅的胶纸厚度相当于50磅的书用纸。在欧洲,纸张分级要简单得多,使用的重量单位是克每平方厘米(g/m2),有时缩写为gsm。20磅的粘合纸相当于75.2 gsm的纸张。纸张厚度有助于在垂直(正面)侧看到背面印刷品的可能性。压延可以使纸张更致密。填料的选择也有帮助。印度纸是一种非常薄的纸,也是不透明的。
墨水
墨水可以分为两类,一类是与手持书写设备一起使用的墨水,另一类是机械印刷过程中使用的墨水。墨水都是由着色剂(颜料和染料)、载体(粘合剂)、添加剂和载体物质(溶剂)制成的。所需的流动特性取决于油墨的印刷或书写过程,因为油墨必须与转移机构和干燥或固定过程相匹配。油墨的范围从薄和水到粘性,也存在于粉末或固体中。墨水必须自由流动,但不能扩散。它必须容易干燥,不损害纸张或书写工具。
公元前3000年左右的埃及人使用黑色墨水,由碳和红墨水制成,由天然氧化铁制成,悬浮在水中,用树胶或胶水。抄写员的图片和抄写员的象形文字总是包含一个矩形,其中有两个圆圈,代表这两种墨水颜色的井。大约在同一时间,中国人发明了一种类似的黑色墨水,由灯或悬浮在水溶性树胶稀溶液中的炭黑制成。这种墨水被称为“印度墨水”,因为它是通过印度传入西方的。这种墨水需要经常搅拌,使碳保持悬浮状态。碳素颜料没有浸入纸中,而是留在纸表面。这种墨水是稳定的,显示最小的影响,年龄,但水溶性。
铁胆墨发明于公元五世纪,从中世纪到二十世纪成为杰出的书写材料。它是由铁盐(通常是硫酸或硫酸铁)、单宁(一种从橡树瘿中提取加仑单宁的酸)和胶水(阿拉伯树胶,一种从相思树上提取的植物胶)混合而成。随着时间的推移,铁质单宁成分会氧化墨黑,赋予它“蓝黑墨水”的名称。在十九世纪,靛蓝染料首先被添加到油墨中,产生一种酸性较低的蓝色油墨。
油墨中使用的着色剂可以是可溶油中的有机或无机颜料。颜料的粒径为0.1-2米,呈悬浮状。他们需要一个工具把他们绑在纸上。车辆也可以涂上颜料,防止机械磨损(磨损),有时也被称为清漆。颜料有很宽的颜色吸收带。染料在使用过程中具有更高的颜色强度,产生更多的发光颜色,并在更广泛的颜色范围。染料是溶解的有机化合物。天然染料最初用于染色,但在1900年左右被苯胺和合成染料取代。合成染料几乎只在今天使用。染料可以是透明的,而且颗粒比颜料中的小,但它们比颜料的耐光性差。大多数印刷方法使用颜料,但喷墨打印机主要使用染料。
粘合剂通常是溶解在矿物油中的树脂。添加剂取决于印刷工艺并影响干燥时间、流动性和耐磨性。载体物质是稀化剂,如矿物油或溶剂,如甲苯。
20世纪40年代,圆珠笔被商业化地引进,它使用一种粘性的快干糊状墨水。圆珠笔墨水的颜色来源于合成染料,包括甲基紫、维多利亚蓝和固醇橙、黑松香、铜酞菁和其他有机金属染料。染料和颜料约占典型圆珠笔墨水质量的25%。溶剂或载体由乙二醇等二醇的混合物制成。1950年以前,人们使用亚麻籽油或矿物油。该载体溶解或悬浮染料或颜料,并促进油墨在旋转球表面的平滑流动。车辆通常通过蒸发快速干燥,在纸上留下颜色。溶剂占墨水质量的50%。剩下的25%的墨水是树脂,它可以是天然的或合成的材料,为墨水提供粘度。
在20世纪70年代和80年代,毛毡笔尖和滚筒书写笔被引进,它们使用一种液体墨水,通过笔尖传递并均匀地浸湿纸张。液体墨水比粘性墨水更能渗透纸纤维。胶笔墨水是80年代末推出的粘性墨水,但不到圆珠笔的程度。凝胶是以水为基础的生物聚合物,如黄原胶和黄芩胶,以及聚丙烯酸酯增稠剂。凝胶墨水含有悬浮在粘性介质中的颜料,因此它有较厚的颜料沉积层,使线条更大胆。颜料是不透明的,有多种颜色。颜料通常是铁氧化物和铜酞菁。
除了液体和粘性墨水,墨水也可以是固体。罗马人用铅棒作标记。当1564年在英国发现一个巨大的石墨来源时,人们还不知道它不是铅的一个变种,直到今天这个名字仍然存在。铅笔“铅”由蜡、填料(粘土)、石墨粉和水混合并挤压成棒状,经干燥和窑烧而成。结果是多孔的,可以浸蜡使书写更流畅。彩色铅笔使用彩色颜料与粘土、蜡或脂肪酸、水和像黄芩胶这样的吸收性物质结合。这些是干的,烧成阶段省略。铅笔有好几种硬度,这是由于粘土和石墨的比例不同造成的。在欧洲,这些范围从9H到H,F,H B,然后是1B到9B。H是一种硬铅,在纸上沉积很少的碳,使标记非常轻,B是一种软铅,写得非常黑。在北美,铅的硬度主要用数字1-4表示,其中1对应于欧洲最常见的硬度1B;2对应于HB;3对应于H;4对应于2H。
机械印刷用油墨(Inks for Machine Printing)
打印机墨水和钢笔墨水大不相同。油墨特性与机械印刷技术交织在一起。本节主要介绍油墨,更多关于“机械印刷”一节中确定的机械技术的细节。活版印刷油墨是粘性的,几乎和油漆一样。从历史上看,它有时被称为黑色“糖浆”,因为它是由亚麻籽油煮成的,当它从生的脂肪中解放出来后,它达到了一种像胶水一样的稠度。这种颜色来自于灯的黑色颗粒,这些颗粒经过研磨和重新研磨,直到它们非常细,不会阻塞最小字母的计数器。现代墨水是由溶剂和塑料的混合物制成的。这些墨水通过吸收到纸上而变干。胶印是一种常用的印刷技术,它把一幅印出的图像从印版转移到橡皮布上,然后再转移到纸上。它还使用高粘性糊状墨水。它是由硬树脂,有时是醇酸树脂;植物油(亚麻籽,大豆,木材);或矿物油和颜料。凹版印刷油墨的粘度较低,使其成为液体油墨,因此可以填充凹版印刷单元。常见的溶剂是甲苯、二甲苯或石油溶剂、乙醇、乙酸乙酯或水(有时与乙醇混合)。
打字机用的墨水装在色带上。丝带有时是纺织丝带,丝带的编织通常在字符图像中可见,如图2.4b所示。后来的发展导致了一种带有可移动的黑色墨水膜的胶带的生产,当施加压力时,这种黑色墨水膜会转移到纸上。这条带子比墨带更不容易干。因为它把一层更均匀的墨水转移到纸上,所以它产生的深色区域比色带更均匀。它还防止了字体被粘住,因为字体只接触到不带墨水的胶带背面(图2.5)。
静电复印中使用的墨粉,如激光打印机或复印机中使用的墨粉,不仅限于液体墨水,而且通常是碳基粉末混合物。颗粒通常包括磁性载体颗粒,通常是氧化铁,以及熔融的聚合物,以将调色剂附着在纸张上。载体是可回收的,可以是80米,而碳粉是4-8米。没有载体的碳粉有12-20米直径的颗粒。用于静电复印的液体调色剂将包含1~2微米的颗粒,并允许在打印过程中通过混合调色剂直接混合颜色。
喷墨打印机需要一种低粘度的墨水,这种墨水必须经过过滤,这样颜料团就不会堵塞打印头喷嘴中的通道。喷墨墨水通常是水性的。它们倾向于渗透或渗透基板表面,并可能导致基板翘曲或波动。因此,推荐使用这种印刷方法的特殊涂布纸。一些喷墨纸会融化残留在纸表面的蜡或塑料墨水。
书写和打印过程(Writing and Printing Processes)
墨水可以通过手持设备或更大的机器转移到纸张上。本节介绍这两类技术。这些书写和印刷方法中使用的墨水在“墨水”一节中进行了说明
手持式书写工具
在机器印刷出现之前,所有的书写都是用手持式书写工具完成的。手写和手工打印的文档都是通过将书写工具滑动到书写基底上来创建的。手持式书写工具有很多种,如毛笔、笔尖笔、圆珠笔、毡尖笔和铅笔。笔划的外观由笔尖的形状决定,包括笔尖与书写基底接触时如何变形,以及墨水的特性,如液体类型和不透明度。
希腊人用金属样式在蜡板上做标记。苏美尔人用芦苇在泥片上留下印记。在印度北部,人们使用芦苇笔,这导致了角形文字的发展,而在印度南部,人们使用金属笔,更圆的文字形式演变成不撕纸。在埃及,书写用的触笔是一根芦苇,芦苇的末端被咀嚼成一种刷子,所以书写与绘画相似,但芦苇的核心是墨水。公元前1000年,中国人用骆驼毛或鼠毛刷。中世纪的欧洲抄写员用一种叫做pencillus(“小尾巴”)的小毛笔完成精细的工作,这就产生了pencill一词。笔刷可能具有可变的笔划宽度,并且可能在笔划中有条纹。
图2.2金属笔尖和书写样本
羽毛笔于六世纪传入欧洲。钢笔这个词来自拉丁语penna,意思是羽毛。从大鸟(通常是鹅)身上切下的笔尖或笔尖。然后将其浸入墨水(通常是水性墨水)中,在空心轴中形成墨水库。笔尖和纸张之间的压力使墨水通过毛细管作用转移到纸张上。通过使用,羽毛笔上的点会磨损,需要再次切割羽毛。这可以由作者来完成,也可以由经常“驻扎”在街道上提供服务并将“文具”一词借给办公用品的切笔人来完成。在19世纪,金属嵌件(图2.2)的发展,以消除不断需要重复的笔尖。早期的金属尖晶石存在缺乏柔韧性和腐蚀性的问题,尤其是使用铁胆墨。当用金属笔尖写字时,笔尖上的点在下行程的压力下经常分开,在纸上形成一个充满额外墨水的凹槽,称为“笔尖轨迹”。笔尖的形状影响书写风格,反之亦然。宽笔尖的边缘是平的,笔划的厚度取决于笔划相对于笔的角度。尖头尖头通过施加不同程度的压力来分离不同数量的尖头,从而改变行程宽度。自来水笔是笔尖笔,有一个内部的墨水库。第一支成功的钢笔是在1884年研制的。这就消除了笔迹上的逐渐褪色现象,因为笔迹笔的储存器被清空了。
圆珠笔是当今最常见的书写工具(图2.3a)。圆珠笔的第一项专利于1888年颁发给一位名叫约翰·劳德的美国人。他把它们设计成能在粗糙的表面上写字。改进了磨球和测量技术,使钢笔结构良好。
机器印刷
虽然最终人类的手参与了所有的印刷过程,但那些手没有直接参与的过程被认为是机器印刷。机器印刷可分为两大类,冲击和非冲击。冲击印刷是较老的技术,而非冲击印刷已经启用了电子的引进。随着各种新的印刷方法的扩展,所有不需要印版母版的印刷方法都被归类为无影响印刷。
冲印
冲击印刷使用四种主要的方法,使墨水到纸上。这些方法产生的文档具有不同的图像特征。每个人都有自己喜欢的纸张和墨水。每种类型的易用性和历史背景的结合影响了每种类型的流行程度以及它们成为文档图像分析主题的频率。表2.2总结了冲击印刷的方法和类型。
凸版印刷
最古老的机器印刷形式之一是将文字或图像雕刻成木块,然后在木版印刷的过程中,将其上墨并压在纸上。这种印刷品的第一批样品可追溯到公元八世纪的中国。第一本印刷的书是公元868年在中国印刷的《金刚经》,先是卷轴,后是书籍。公元953年印刷了130卷经典著作。这种印刷方法在15世纪在欧洲很常见。每个版块上都刻满了一页印刷品。由于木块的生产是劳动密集型的,所以用这种方法印刷的材料量很小,但是木块可以长时间使用,每一页都可以印很多份。
无冲击印刷
电子照相印刷
多音和彩色打印、抖动和屏幕
数字印刷、电子图书和显示器
采集方法
平板扫描仪和传真机采集
照相机和移动设备
录影机
其他专业模式
文档质量
影响文件质量的因素
文献质量对分析识别结果的影响
文档退化模型
结论
3 The Evolution of Document Image Analysis (文献图像分析的演变)
Contents
Introduction. ........................................................................................ 64
Isolated Character Recognition孤立字符识别. ................................................................... 64
Beyond Recognition of Isolated Characters: Exploitation of Context超越孤立字符的识别:上下文的利用. ... ... ... ... ... ... ... ... .. 66
From Words to Pages, from Pages to Structured Documents, and Onwards to
Non-textual Documents从文字到页面,从页面到结构化文档,再到非文本文件. ........................................................................... 67
Stubborn Obstacles to Document Image Recognition.文档图像识别的顽固障碍 ........................................... 68
Conclusion. ......................................................................................... 69
Cross-References. .................................................................................. 69
Notes................................................................................................ 70
References. .......................................................................................... 70
Further Reading. ................................................................................ 71
摘要
光学字符识别是计算机科学最早的应用领域之一。当时,人们期望机器能够很快地读取任何文档。历史证明,这项任务比那更困难。本章探讨了文档分析与识别领域的发展历史,从OCR到页面分析,再到尚待解决的开放性问题。
简介
第一台计算机和计算机科学作为一个领域出现在第二次世界大战。一旦这个领域扩展到科学计算和国防应用之外,它的第一个用途就是光学字符识别(OCR)。当时,人们预计机器很快就能读取任何文件。但很快就明显,这方面的进展将比预期的要慢,而且应用程序和需求的巨大多样性将使单字符识别不可能仅仅依靠改进的分数。一个邮政编码的一个数字中的每一个错误都会将一封信发送到错误的目的地,一页文本中的五个字符错误通常足以增加OCR后编辑的巨大成本,当问题涉及到提取一个完整文档传递的主要信息时,在不知道打字字体或手写字体的情况下,与破译单个字符相比,分析全局文档“场景”的挑战要大得多。
本章并不假装提供了文档分析系统如何演变的完整历史,而是指出了这一演变过程中的一些主要里程碑。
单个字符识别
Schantz在他的OCR历史[1]中提到了1809年美国的一项帮助盲人阅读的专利。到1870年,C.R.Carey用一组光电池来传输图像,到20世纪初,P.Nipkow用“扫描盘”逐行分析图像。1912年,艾曼纽尔·戈德伯格(Emmanuel Goldberg)发明了一种将打字信息转换成电报信息的机器,1914年,埃德蒙·德阿尔贝(Edmund F.D'Albe)发明了一种手持式扫描仪,可以将文字图像转换成声音,以帮助盲人读者阅读。1931年,Goldberg获得了驱动模板匹配字符分类器的光学扫描仪的专利。直到20世纪50年代,“精确地将源模式与模板模式对齐的困难”限制了这种技术和许多类似技术的准确性
1951年,David Shepard演示了一台OCR机器,它能够读取由“标准打字机”打印的23个字母。与此同时,Jacob Rabinow改进了模板匹配,以便在一系列错误注册等中搜索“最佳匹配”,并将字母表扩展到大写和小写。在20世纪50年代早期,技术进步主要依赖于更好的成像传感器和控制传感器和纸张的运动。识别方法包括“区域相关,特征分析,[和]曲线跟踪”;细化包括“噪声滤波和]图像预处理”。应用在50年代后期迅速扩展;大多数是定制设计的:1959年,一台为美国空军制造的机器可以同时读取大写和小写字母数字,但只能用一种字体。甚至打字机字体在1954年也提出了一个挑战,一个OCR制造商建议使用一种特别设计的57格字体进行广泛的标准化打印,以帮助OCR。
在20世纪60年代,打字应用迅速普及,尽管每一种应用都是经过专门训练的,只能处理一种字体;然而,人们普遍认为,这项技术可以在“几乎任何一致形成的字符模式”上进行有效的高精度训练一批文档的格式:期望用户将其输入标准化。很快,顾客们就要求能处理各种文件的机器,包括各种字体。第一台商业化的“多字体”机器出现在1964年;到了20世纪60年代末,这种为美国军队定制的机器“读取63%[:::.]无错误”一个高度异构的输入流文件,其中包含30多种预处理字体的大写和小写字母。在20世纪60年代,所有OCR机器都是大型定制设备,处理大批量的数据,通常速度非常快。
20世纪60年代初,首次出现了有希望的手写(非草书)汉字实验。在20世纪60年代末,出现了用户可培训的OCR机器,当时市场上称之为(潜在的)“omnifont”;但这些机器很少有效。Rabinow的提案[2]清楚地反映了该技术面临的技术障碍:
一个人对文档的控制越多,阅读机器就越简单,成本也就越低。:::[这怎么能做到?]规范纸张类型,纸张大小,打印质量,格式,字体。
业界对此呼之欲出,于是产生了两种标准的OCR字体(OCR-A和OCR-B)。
到了20世纪70年代末,字符阅读器得到了其他有争议技术的补充,包括条形码阅读器和标记感阅读器。20世纪80年代初,随着传真机的普及,市场发生了重大变化,高分辨率的平板文档扫描仪变得可以负担得起,这些扫描仪与个人电脑相连。然后,OCR公司竞相推出“个人OCR”,其中缺少了预培训和大多数类型的“控制”。OCR公司通过对大量(数以千万计)来自几十种字体的字符图像进行大规模培训,试图实现他们所宣称的真正的全字体识别系统。
1992年,Mori等人。介绍了OCR研究与发展早期的历史回顾[3]。同时,George Nagy[4]预言性地批评当时依赖于对孤立字符图像的准确识别的艺术状态为“耗尽”,并指出开发更大的上下文(包括文档中的样式一致性)和更广泛的多字符上下文分析(包括布局上下文)的前景。Mori、Nishida和Yamada[5]后来总结了1999年孤立字符识别方法的最新进展。
孤立字符的超越识别:语境的开发
正如Nagy所指出的,如果希望机器像人类一样阅读,就必须超越孤立字符识别率的进步。事实上,我们人类不仅在一年级学习单个字母;我们还学习阅读和理解完整的文本,从表格中提取有意义的信息,并通过复杂的文档(如会计报告、新闻文章、诗歌,甚至地图和工程图纸)相互交流。即使是手写文档,其中任何单个字符都可能非常难以破译,也会变得有意义,因为我们考虑了文档的上下文。
这是从使用发送者和接收者都知道的语言来查看打印、打印或手写文档(如消息)开始的。因此,对书面对象的分析可以考虑语言方面。
桑普森在他开创性的研究写作系统[6]中指出
尽管现在潮流开始转向了(1985),二十世纪的大部分时间里,语言学几乎完全忽略了写作。
因此,学术界对写作语言学的严肃关注是最近才出现的,当代出现了为非专家使用的“通用”OCR机器。在学术语言学界,计算方法在20世纪70年代以前也一直是少数;即使在今天,OCR研究人员也很难找到语言学界愿意并能够以随时可用的数据和软件形式分享其见解的同行。我们认为,这一事实反过来大大减缓了语言学家利用文档图像识别技术开发知识的速度。
自动生成自然语言文本的最早步骤之一是提供一种检查单词合法性的方法。最简单的手段当然是或多或少详尽的列表,或者扁平的词典。在OCR系统中,最早的词典上下文开发依赖于这样的列表,并一直持续到现在。在20世纪70年代,计算机可擦写词汇的集合迅速加速,现在已接近饱和的信息技术产业所支持的语言的饱和;但是,一如既往地,许多远程语言的服务不足,因此现代OCR系统的扩展,设计成通过提供词典来廉价地重新定向到新的语言,可能会遇到重大障碍。
自动生成自然语言文本的最早步骤之一是提供一种检查单词合法性的方法。最简单的手段当然是或多或少详尽的列表,或者扁平的词典。在OCR系统中,最早的词典上下文开发依赖于这样的列表,并一直持续到现在。在20世纪70年代,计算机可擦写词汇的集合迅速加速,现在已接近饱和的信息技术产业所支持的语言的饱和;但是,一如既往地,许多远程语言的服务不足,因此现代OCR系统的扩展,设计成通过提供词典来廉价地重新定向到新的语言,可能会遇到重大障碍。
然而,许多语言都有很强的屈折变化,因此出现了大量的词汇变体:它们共同的特征有时被称为词干,而这些变体通常由后缀、前缀和更复杂的重写提供。拉丁语、西班牙语和俄语是极端情况。对于这些语言中的大多数,可以在计算语言学算法中捕获所有或大部分屈折形态学规则,这提供了几个好处:
1。更小的词典,因为许多变体都变成了相同的规则。
2。容易输入新词,因为只需添加新词的词干,它的所有屈折都会被覆盖。
3。对新词的识别,使以前从未见过的词能被正确识别(通过派生词法)。
4。更快的查找是一种可能性,尽管计算开销,在一个等价的词汇是难以管理的巨大的情况下。
所有这些好处都有可能被OCR系统所利用
里奇等人。[7] 本文对英语词汇的这种形态结构进行了几乎详尽的分析,这就要求有一个“两级”的规则语法改写规则体系。他们提到,这种方法适用于包括芬兰语、法语、德语、日语、罗马尼亚语、古教会斯拉夫语和瑞典语在内的语言。不幸的是,像希伯来语和阿拉伯语这样的闪族语言拥有“非连接”的形态,这需要更先进的模式。OCR系统的一个含义是,即使在今天,对于服务不足的语言来说,像“词典检查”这样基本的语言上下文也可能是不可行的,要取得进展可能需要专业的语言努力,甚至语言学研究。
从文字到页面,从页面到结构化文档,再到非文本文档
一件事是识别字符、单词或句子;另一件事是获取文档中的所有信息,如要由邮政部门处理的信件、银行支票、填妥的表格或商业信函。除了字符和单词识别之外,这还包括许多任务,特别是与文档页面的空间分析有关的任务,这实际上是一个场景分析问题,以及布局结构与该布局所传达的语义之间的映射。
该领域的早期工作涉及最常见的布局。在20世纪80年代,通过研究小组设计的各种方法,提取出了可以在书籍、报纸、期刊等中找到的矩形布局,如IBM设计的游程平滑算法[8],并用于报纸档案分析系统[9],或者X-Y树将一篇期刊文章分解成同质部分[10],现在仍然被广泛使用,如第5章(文档分析中的页面分割技术)所述。
在布局和/或句法约束很强且众所周知,并且对大量文档的可靠性要求很高的特定类文档也很早就受到了特别关注。因此,系统设计用于邮政自动化[11]或银行支票识别(见第21章(邮政应用程序中的文件分析和支票处理),表格和表格(见第19章(表格和表格的识别))或商业信函。
也有必要超越文本,因为最一般意义上的文档是人类相互交流的形式化方式,使用一种通常能理解的语言,也可以包括图形部分、图像等。这导致了对地图[12,13]、电气图[14]或工程的分析系统的研究图纸[15]。如果这些早期的系统经常是有限的,为一组狭窄的文档进行微调,并且难以维护和扩展,那么它们仍然有助于开发仍在使用的图形识别的基本方法,如第章所述。15(图形识别技术)、16(符号识别概述)和17(图形文档的分析和解释)。
文档图像识别的顽固障碍
1982年,Schantz说“正确的字符识别率与源数据的质量成正比”[1]。1999年,Rice、Nagy和Nartker[16]发表了一篇对频繁出现的OCR错误进行了大量说明的分类,并以前所未有的洞察力讨论了这些错误的根源。质量的一个方面是,由于打印和图像捕获,图像质量下降[17]。
在文件图像分析和识别发展道路上仍然存在的许多障碍中,让我们提到在我们看来最难处理的障碍,因此在今后几年中必须继续予以注意
(a) 文档图像并非总是以最佳和可控的方式捕获,而且其质量往往太低。在某些情况下,例如管理大量的遗产文件,可以对扫描过程的分辨率作出决定,文件本身有时也会降级。之后的处理必须使用图像本身,即使很明显质量远远不能适应分析过程。图像质量可能导致特定问题的其他情况包括视频中的文本和由照相机或电话捕获的文档(见第25章(图像和视频中的文本定位和识别))。
(b) 许多识别过程依赖于需要训练的分类方法。但并不总是能够处理足够大的训练样本集,覆盖分析问题的全部多样性。对于非文本文档尤其如此。与此相关的是,为了评估文档分析系统的性能,通常很难获得足够的地面数据。见章节。29(用于文档分析和识别的数据集和注释)和30(用于文档分析系统评估的工具和度量)用于进一步讨论这些问题。
(c) 我们已经看到,语言工具是设计高效文档分析系统的重要资产。但在许多语言中,这种工具缺乏或没有得到充分开发。
(d) 没有一个文档分析系统可以完全自动化,这样它就可以作为扫描仪输出的后处理步骤。但是很难构建有效的用户界面,很难将文档图像分析有效地集成到一个更大的工作流程中,甚至更难让用户接受文档图像处理和识别的易出错特性。
(e)似乎有无限的方式,人们创建文档,复杂的布局或不一致或不存在的排版和语义规则。不可能为所有这些变化训练一个系统。这使得研究人员和公司将注意力集中在小的问题子集上,他们设计的解决方案通常不适用于稍有不同的问题或文档类别。
(f) 如今,许多公司都面临着这样一个问题:他们的客户或供应商通过多种渠道发送文件,以便传达具有法律或经济意义的信息。这包括通过打印邮件、传真、以电子邮件形式发送的扫描文档图像,甚至PDF或TIFF格式的电子文档(辅以元数据)填写的表单。尽管这些通道中的大多数都提供了一定数量的元数据(传真提供了传真号码,电子邮件的标题中有信息,电子文档有全套的描述符),但它们仍然需要解决整个文档分析问题,正如这本书大量展示的那样。此外,由文档传送的消息是工作流的一个组成部分,即它们可以请求信息或回答这样的请求。帮助这些多通道信息直接提供给工作流是一个挑战,而解决这一挑战的好办法将具有很高的经济价值。
结论
Sellen和Harper[18]有力地指出,在可预见的未来,即使纯数字媒体继续呈指数级增长,纸张作为传播媒介的作用也不太可能在规模上下降。Lesk对数字图书馆的预言性研究[19]指出,即使许多现代数据不可避免地将是“天生的数字”,因此永远不必从文件的图像转换而来,随着数字图书馆规模的不断扩大,印刷纸的总量也将随之增长。在Nunberg对书(20)的未来展望中,数字和基于文档的信息版本将共存,并借助于文档图像分析技术,相互丰富地相互参照。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
2019-01-13 Long-distance navigation and magnetoreception in migratory animals(迁徙动物中的长距离导航和磁感应)
2018-01-13 斯坦福大学公开课 机器人学