[原创翻译]利用文字识别来查询世界

本文的内容翻译自附录1中的论文内容。

文章结构如下：

摘要
介绍
文本识别工具链
文本与主题相关联
实验性结果
总结
致谢
参考文献

运用文本识别来查询世界

作者：Ingmar Posner and Peter Corke and Paul Newman.

摘要(Abstract)

为了人类的方便，我们居住的世界被普遍地贴上了标签。但是，目前为止机器人对于人类可阅读文本资源的利用非常小。在这篇文章中，我们旨在提醒大家注意，文本作为一种可阅读的语义信息资源，在机器人学中通过实现一个系统，能让机器人阅读普通场景中的可视化文本，让机器人运用知识去解释一个给定场景里面的内容。在普通场景中文本的检测和转换是一个活跃的研究领域，但是它存在一个重大的问题。我们通过在流程中加入一个概率性错误校正方案(probabilistic error correction scheme)融合一个传感器模型(sensor-model)，扩展了通常被接受的方法，加速了检测和用于句法分析为文本的光学字符识别(optical character recognition,OCR)。为了说明场景的内容，我们介绍了一个可以解释在任意的搜索项目中的相关被识别的文本。这就运行机器人评估给定场景与任意查询的关联，比如，他是不是在寻找一个银行或者餐馆。我们展示了机器人在一个热闹的城市中记录的图形数据中得到的结果(文本识别)。

Fig1.通过我们的文本识别系统的一个典型输出。P的值代表了后验概率p(w|z)。详情参看II-D。

Fig2.这是本工作中使用的数据采集机器人。图像采集通过固定在二维头上的“大黄蜂”摄像头完成。

I.介绍(Introduction)

　　文本，在设计上，是一种语义信息的丰富来源，通常不能被推断，除非使用目前的有利优势，我们的感官。人类可读的文本在人造的环境中大量出现。户外、路标、公交车站、商店前面都提供了富含功能和位置信息的好质量的文本。商店门前特别富含文本，这些文本提供了这个商店的属性信息而且可能可以使用因特网搜索资源查询确定这个商店的位置。街头路标可以提供重要的导航提示。当GIS和GPS在室内不可用时，文本同样可以提供至关重要的线索。物品和地方常常被直接标记：“推”和“拉”可以暗指门，某些区域被标记为“厨房”，等等。但是，尽管这些文本有明显的实用性，它还是至今在很大程度上被忽视而没有作为机器人的一个信息源。在这篇论文中，我们描述一个方法可以允许自主智能体（译者注：可以理解为自主机器人）利用这些有价值而且未被利用的的资源去决定一个给定的场景与一个任意的查询之间的关联性。比如，一个餐馆可能（在最好的情况下），通过被观察到的单词“餐馆”来表明，但是也可以被一些同义词来表明，例如“酒馆”，表示烹饪法的单词（“中国”，“泰国”），或者一些招牌菜（“海鲜”，“披萨”，“牛排”）。我们描述了一个生成概率模型来解释关于一个检索词的识别文本，因此能够使机器人确定一个地图上的地方和一个抽象的语义概念之间的直接联系。

　　我们系统的核心由一个能在这样的环境中健壮性地检测和句法分析文本的文本识别引擎构成（例子见Fig1）。尽管自动文本识别有很长的历史了，在打印的文档上的应用存在一个现有的问题（例子：参考文献[1]-[4]）。这些野生文本的挑战包括缺少文本和它的背景的对比，字体和文字大小的丰富多样性，字符和关联的单词在水平和垂直方向排列的高度变化性，由于没有从正面水平角度观看导致的透视图变形。

　　我们这次工作的贡献由一个通过计算机视觉和光学字符识别（OCR）技术实现的机器人的系统构成。这个系统利用了那些未被使用但是很有价值的导航和信息化资源。一个通过场景中的识别文本解释主题的生成模型被我们引进。这一章节的剩余部分内容描述了我们之前的相关工作。最核心的文本识别引擎，文本检测和OCR会在第II章中描述。用来根据任意检索词选择图像的生成概率模型在第III章描述。第IV章展示实验结果。第V章总结。

A.相关工作

　　在机器人学中利用人类可读文本的潜力在过去被一些研究者认识。但是，就我们所知自然场景图像中的文本识别被实现或者部署到机器人学情景中去，不存在这种先有技术。在参考文献[5]-[7]中OCR结合机器人的使用是推荐的，但是没有被实现。在参考文献[5]中一个板载基于DSP计算设备的机器人被提议可以用来阅读标志和牌照。这项工作进展到什么程度了还不太清楚。参考文献[6]的作者探讨了OCR并且建议将其应用在机器人导航中。参考文献[8]中一个图书操作机器人使用OCR来确认要从架子上拿下来的书的标题。参考文献[9]的作者描述了一个室内移动机器人执行OCR，尽管提取的文本并没有被利用。很多以前的工作在机器人学领域探寻开发方向。在参考文献[10]中作者根据先验知识使用目标识别技术断言来处理这个任务，这些先验知识是一系列有意义的标志的集合。标志通过他们的几何组成部分被识别。最关键的是，文本检测、句法分析和理解都没有被应用。相比之下，我们的工作旨在为使识别和理解一个场景中的任意文本成为可能，这能够提供一个更广泛的应用，后续应用会接踵而至。没有假设任何有用的先验知识。

　　我们的系统中的一个重要的部分就是从场景图像中提取文本。这是一个当前研究的热门领域（例子：[1]-[4]）。国际文档分析和识别会议(ICDAR)已经组织了两场健壮性地检测基于一个标准集合中被贴上标签的图形中的野生文本的竞赛（2003和2005）。结果被概括在[11]，[12]中。其他非文档OCR应用包括检测电视流中的文本[13]，牌照识别[14]-[16]，和用于视觉受损的人的辅助设备[17],[18]。

Fig3.通过ICDAR中训练部分和Weinman的数据训练1000次单精度加速分类器的性能。

II.文本识别工具链

　　在我们的系统核心的是一个文本识别引擎。一般来说，这个问题会被分解成很多步：检测图像中的文本，识别字符，将字符组合成连贯的单位文本（例如单词或者句子）。除了少数例外情况（例如[3]）之外，这些个别的步骤被独立考虑，连续的过程并且它们之间不分享信息。我们的文本识别的实现遵照这种处理这个问题的传统途径。最重要的基础是：

　　1)文本检测。决定输入的图像中可能包含文本的区域。

　　2)排列分析。那些相邻的垂直和水平对齐的拥有相似字符大小的文本区域被合并。

　　3)光学字符识别（OCR）。将这些文本区域转变为字符串和典型的单词。

　　4)文本过滤和拼写校正。OCR阶段的输出通常是有噪声的，通常包含伪造的字符和许多字符置换错误。

A.自然场景图像中的文本检测

　　这一阶段的目标是有效地检测出给定图像中的文本实体。加速技术[19]结合一个attentional cascade（不知道怎么翻译）在[20]中介绍，提供了一个明确的方法来得到这个结果而且有成功的文本检测的追踪记录[2],[13],[21]。在这项工作中，我们应用GentleBoost[22]于基本的分类器，此分类器包含操作哈尔特征集合的决策树。这些特征是通过在图像上变化的预定义模式块，以及在各个块中运算统计学方法，例如平均值和方差。

　　陈以及其他人[2]注意到图像的梯度信息能捕获文本的与众不同的特征。在我们特征的选择和使用基于x-梯度、y-梯度、梯度量级、平均值、方差的特征频道上我们遵照[21]。我们将总共5个特征频道中的每个频道计算22个特征，总共考虑了110个特征规模。

　　两个独立的第三方数据集被雇佣来训练我们的文本检测器。第一个数据集是由国际文档分析和识别会议(ICDAR)于2003年举行的健壮性阅读和文本定位大赛公开提供的一部分内容。它包含一个训练和一个测试集合。每个集合包含250张手动标注的图像，这些图像包含室内和户外环境。由于我们的重点是在室外应用，我们用Weinman[3]使用的数据中的一个子集增广了这些数据，这些数据包含300张城区户外图像，而且有很高比例的和一个标签上有多行文本一样杂乱的自然场景。

　　为了研究这些特征的功效，我们通过450个正例和2000个反例来训练加上分类器的单精度单片机，这些例子中的文本从ICDAR的训练部分数据和Weinman数据的组合中随机取样得来。训练好的分类器通过使用从同样的数据集中抽取的996个正例和38000个反例数据来评估。分类器在验证过的数据集上经过1000回合训练后的性能在Fig3中展示。训练的次数被设定为足够大，旨在保证收敛到一个合法性错误。Fig3表明这些类别的一个充足的分离。

　　为了提供一个适当低误判率的有效的分类框架，我们部署了一个瀑布式加速分类器而不是一个单精度单片机。训练通过利用从IDCAR的训练部分数据和完整的Weinman数据的组合中随即采样的文本区域来管理。瀑布的每一阶段用400个正例和1000个反例来训练。这些反例持续不断从35000个数据的储存池中取样。验证过得数据集包含1046个正例和5000个反例。最终的输出是瀑布产生79.4%的检测率，同时只有千分之1.6的检测是乱真的。

Fig4.文本识别过程的各个阶段：a.原始图像，b.在尺度48、57、69下检测到的重叠矩形，c.文本可能性分布图，d.在这个尺度范围下检测到的文本区域。

B.区域提取

　　前一阶段的输出是矩形列表，每个尺度一个列表。这些列表被分类为包含文本，见Fig4(b)。一个标准的图像会在一些尺度的每一个上有上百个矩形。这些矩形都是重叠的，在每个尺度上我们寻找那些有这种特征的矩形，它们与至少N个其他的矩形重叠（我们用N=3）。野生文本会恰好匹配尺度相当不可能，所以我们考虑将那些有这种特征的矩形M相邻的尺度（我们用M=3）。每个矩形为它自己包含的像素投票，这些投票记录在一个与原始图像同样大小的投票数组中，见Fig4(c)。投票数组的阈值在最大值的25%，区域的边界框也被计算。在这个尺度下被选中的区域在Fig4(d)中展示。好的边界框对于流水线中后续阶段的成功很重要，与此同时我们目前过分简单化的布局分析方法允许一个合理数字的识别，它一般造成边界框过紧或者过松。

C.光学字符识别

　　现今OCR库打印文本来说很可靠，这些文本要求有高对比，简单的背景，字体和字体大小的一致性，字符的水平排列。这些特性野生文本都没有。我们评估了2个开源OCR库：GOCR和Tesseract[23]，然后选择了后者。Tesseract在处理倾斜的基线时效果更好，这有利于我们处理由于非正面水平视角导致的透视图扭曲变形。

　　主要的错误模式是字符的错误识别和字符间的间隔。单个字符置换错误也很常见（例如zero与oh，one与ell，five与ess）。相邻的字符之间可能出现间隔或者有时单词之间的间隔不可见，这两者都是成问题的。根本原因是户外标记中能发现的字体的范围太广。

D.概率性错误校正

　　OCR引擎的输出可以通过考虑限制它在一个有意义的单词集合中来改进。一个简单的词典检查将会丢弃任何没有找到的词。在常见的单字符置换错误情况中这种方法很不令人满意。取而代之的，我们利用概率性推理出在场景中出现的真正的单词，w，给出一个可能的错误检测，z，p(w|s)。

　　让Z表示所有OCR可能检测到的集合，因此z∈Z。除此之外，让V表示英语中的所有术语，因此w∈V。我们将z认为是未知的生成单词w的噪音翻译。所有在集合V中的单词的后验分布可以表示为 $p(w|z) = \frac{p(z|w)p(w)}{p(z)} (1)\r = \frac{p(z|w)p(w)}{\sum _{w\in V}p(z|w)p(w)} (2)$ 。

　　评估这个表达式测定p(z|w)——文本检测给定一个拼写正确和完全观察生成的单词w的分布。直观上说，z越接近对应一个单词，这个单词更有可能去解释检测。我们用字符串相似度算法的编辑距离Φ(z,w)捕获这个场景中检测到的单词z与单词w的距离，写做 $p(z|w) = \alpha e^{-\alpha \Phi (z,w)}(3)$ 。

　　这里α是一个自由参数用来编码文本检测系统的精确度。对于在本论文中展现的结果，α是通过随机拼写错误手动设置的。训练和测试的集合中包含的数据都没有被使用。在以后的工作中我们希望从一个大型的训练数据集中学习这个参数。最后，方程式2在场景中出现的给定单词w的先验概率的规格。我们使用从英国国家语料库中获取的单词频率[24]，一个大约100X10⁶个单词和包含大约130000独特术语的集合。

Fig5.机器人发现的野生文本。注释是未应用错误校正的原始Tesseract输出。

Fig6.机器人发现的文本在错误校正后的例子。P的值表明后验概率p(w|z)。

Fig7.由于纹理词而导致的野生文本的错误检测的例子。P的值代表了后验概率p(w|z)。

III.文本与主题相关联

　　我们现在导出一个依据检测图像中包含的文本来解释其主题的模型。重要的是，由于大型语料库的使用，我们没有必要将自己限制在一个有限的主题集合中选取先验。我们应用这个模型来执行主题搜索，机器人会返回一个地点和视图的列表，它们在语义上与检索词关联。具体地，我们命令搜索主题“移动电话”会返回包含“nokia”、“samsung”、“broadband”等等类似文本的视图的地理坐标——以证明在图像中捕捉到的场景对于移动电话来说是有用的。注意我们并不期望或者要求完美的文本检测，因为我们在第II章的D部分介绍的检测模型，我们可以处理像“nqkio”, “smssag”, or “roodbond”这样的不正确检测。给定一个图像语料库，让Z表示贯穿语料库的所有检测文本的集合。此外，让S表示所有可能的场景主题的集合。我们的目标是去解释一个特定的主题术语s∈S关于一个给定的特定检测文本z∈Z。在概率学中我们可以将其表达为给定的检索词在检测中的后验概率， $p(s|z)=\frac{p(z|s)p(s)}{p(z)}(4)$ 。

　　配分函数p(z)在所有可能的检测上的概率分布，也可以在主题术语的联合分布上按照边缘化扩充。如果我们将所有主题取等可能，方程式4化简为 $p(s|z)=\frac{p(z|s)p(s)}{\sum _{s\in S}p(z|s)p(s)}(5)\r =\frac{p(z|s)}{\sum _{s\in S}p(z|s)}(6)$ 。

　　p(z|s)是现有的场景主题是s时OCR返回字符串z的概率。我们通过在方程式3中介绍的检测模型来解释检测中的噪音并且转换文本。我们引进一层现在隐藏的变量w∈V，V再一次表示英语词汇表，每个w是一个单词。通过在V上的边缘化，我们的期望概率p(z|s)能够依据隐藏的单词扩展。 $p(z|s)=\sum _{w\in V}p(z|w,s)p(w|s)(7)$

　　如果我们设定检测噪音与主题独立无关我们可以将概率p(z|s)表示为 $p(z|s)=\sum _{w\in V}p(z|w)p(w|s)(8)$ 。这里需要测定检测模型的p(z|w)。方程式8中余下的部分是p(w|s)——在主题s上在语料库中一个真实的单词w出现的概率。我们假设一个连接因特网的机器人运行一个网络搜索主题字符串s。在返回的文档中的聚合为单主题文件。为了在这里展示结果我们搜索了BBC新闻，纽约时报和英国卫报的网站。主题文件的结构允许p(w|s)通过计算单词w出现的次数来直接估算。

午餐

的士

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　银行

Fig8.图像关联到查询主题：午餐，的士，银行。

IV.实验性结果

　　我们使用了机器人玛吉(Marge)，一个iRobot ATRV-JR装备各自各样的传感器（Fig2）。图像通过一个立体的大黄蜂头捕获，它能提供60度范围视角1024X768的灰度图像。在这里立体像对中只有左边摄像机的图形被考虑。Fig5-7展示了应用我们的文本识别流水线收集到的941张图像的集合而得到的标准结果中的一个子集。Fig5展示OCR的输出在应用错误校正之前的原始数据。注意有些单词是拼写错误的，中间2张图中边界框截断了一个单词。Fig6显示在相同场景中经过成功校正的单词。我们的系统恢复了一些拼写错误的单词，丢弃了那些被截断的单词。与提取出的单词一样，系统提供一个可信度p(w|z)——每个都用(2)来计算——关于推测单词w解释观测的z有多好。在生成的单词上的后验概率提供一个自然和直观的方法来筛选系统的输出。Fig6-8只显示可信度大于90%的检测。

lunch		taxi		bank
term	p(s\|z)	term	p(s\|z)	term	p(s\|z)
restaurant	0.0186	telephone	0.0112	barclays	0.1131
barclays	0.0052	queue	0.0092	george	0.0060
queue	0.0035	february	0.0051	street	0.0047
children	0.0033	street	0.0042	february	0.0043
keep	0.0032	over	0.0024	telephone	0.0041

表格1

从数据集中提取出的概率排名前5的单词。黑体的单词超过了阈值。

　　在Fig7中的失败例子为我们提供了纹理词的例子。在这些情况中场景纹理，比如围墙、垂直窗户边框、砖头、建筑学特征和装饰物等等，引起了文本检测阶段和OCR阶段的积极反应——典型地，“ILETUCMWA”集合中的字母。

　　我们应用我们的主题相关模型，依次查询午餐，的士，银行主题。起初系统的输出包括一个基于后验概率p(s|z)的从图像中提取自语料库的关键字排名。每个主题返回的前五个连同根据观测单词给定的主题概率一起在表格1中展示。在每个实例中系统管理从查询到语义相关关键字的成功推断。我们应用1%作为临界值。我们检索词相关的图像在Fig8中展示。查询的相关的主题文档的收集导致计算消耗。在实际中这些信息可以被缓存起来，提供给机器人日益增长的知识。在特定问题领域相关主题文档可以被预先检索。

　　Fig9提供一个当应用一个300张便携摄像机记录的城市中心的图像库时我们的文本识别引擎的定量效率。语料库中包含3935个手动标记的单词。根据文本的后验概率的临界值，我们的系统实现撤销率6-8.8%，精度为60-94%，这个效果一般胜过不正确的OCR输出。当实现了充足的精度，相关的撤销很低（每个图像中的平均每个单词）。但是，文本在一个环境中没有一致的出现：有些场景根本就不包含文本，与此同时有些场景中的文本又是非常丰富的。我们的实验表明在实际中正确恢复的文本数量是足以完成例如场景相关推断的任务。

Fig9.通过使用我们的系统提取的来自300张便携摄像机记录的城市中心的图像中的文本的查全率。红星表示没有错误校正的性能。蓝色的点代表根据后验概率p(w|z)的阈值得到的性能结果。注意尺度范围的区别。

　　我们的系统目前并不返回单个单词的边界，而是检测和转换文本区域。因此，100%的检测撤销可以通过将整个图像画一个边界框来平凡地实现，尽管在这些例子中大多数情况下OCR会失败。为了排除我们的分析中的这种因素我们已经证实在75%的例子中，检测到的区域与那些手动标记注解是相当的。全部的最大边界框在修复跨距之后大概占图像区域的60%。

V.总结

　　我们描述了一个可以检测和阅读野生文本的机器人系统，这些文本在人造环境中是一种固有的丰富语义信息资源。我们的工作论证了这种资源对于机器人应用的潜力，研究一个基于查询的导航系统，在这系统中一个任意摘要性的检索词关联到相关的场景图像，延伸到地图中的地点。

　　这是识字机器人领域的早期的工作，我们的工作在几个方面都在进行。首先，我们正在集成这里展示的系统到一个连接3G的机器人上，使其可以在线实现这些技术。其次，我们在不断地研究提高我们的文本识别能力。特别是，我们在研究方法来改善OCR阶段的性能，这一阶段目前展现出很高的错误率。我们同时也在研究通过利用机器人穿过的连续自然工作区和在这个领域的额外的传感器形式来提高性能。再次，我们在研究各种机器人应用，包括基于文本的定位——文本线索与基于因特网的地理编码服务结合——还有集成文本线索到物体检测器中。

VI.致谢

　　作者们想要感谢Jerod Weinman让他的数据能在这次工作中使用。在这里报告的工作是由自控系统系统工程（SEAS），防御技术中心资助，由英国国防部确立，EC下的FP7-231888-EUROPA也提供了部分支持。

参考文献

[1] K. Jung, K. I. Kim, and A. K. Jain, “Text information extraction in images and video: a survey,” Pattern Recognition, vol. 37, no. 5, pp. 977 – 997, 2004.
[2] X. Chen and A. L. Yuille, “Detecting and Reading Text in Natural Scenes,”Computer Vision and Pattern Recognition, IEEE Computer Society Conf. on, vol.2, pp. 366–373, 2004.
[3] J. J. Weinman, Unified Detection and Recognition for Reading Text in Scene Images. PhD thesis, University of Massachusetts Amherst, 2008.
[4] B. Epshtein, E. Ofek, and Y. Wexler, “Detecting Text in Natural Scenes with Stroke Width Transform,” inProc. Intl. Conf. on Computer Vision and Pattern Recognition (CVPR), 2010.
[5] G. Engel, D. Greve, J. Lubin, and E. Schwartz, “Space-variant active vision and visually guided robotics: Design and construction of a high-performance miniature vehicle,” inIntl. Conf. on Pattern Recognition, pp. 487–487, IEEE Computer Society Press, 1994.
[6] M. Mirmehdi, P. Clark, and J. Lam, “A non-contact method of cap-turing low-resolution text for OCR,” Pattern Analysis & Applications, vol. 6, no. 1, pp. 12–21, 2003.
[7] A. Carbone, A. Finzi, A. Orlandini, F. Pirri, and G. Ugazio, “Augment-ing situation awareness via model-based control in rescue robots,” in Proc. of IROS-2005 Conf., Citeseer, 2005.
[8] R. Ramos-Garijo, M. Prats, P. Sanz, and A. Del Pobil, “An autonomous assistant robot for book manipulation in a library,” inProceedings of the IEEE Intl. Conf. on Systems, Man, and Cybernetics, pp. 3912–3917, 2003.
[9] J. Samarabandu and X. Liu, “An edge-based text region extraction algorithm for indoor mobile robot navigation,” Intl. Jrnl. of Signal Processing, vol. 3, no. 4, pp. 273–280, 2006.
[10] J. Maye, L. Spinello, R. Triebel, and R. Siegwart, “Inferring the semantics of direction signs in public places,” in Proc. of The IEEE Intl. Conf. on Robotics and Automation (ICRA), 2010.
[11] S. Lucas, A. Panaretos, L. Sosa, A. Tang, S. Wong, and R. Young, “ICDAR 2003 robust reading competitions,” in Proceedings of the Seventh Intl. Conf. on Document Analysis and Recognition, vol. 2, pp. 682–687, Citeseer, 2003.
[12] S. Lucas, “ICDAR 2005 text locating competition results,” in Proceed-ings of the Eighth Intl. Conf. on Document Analysis and Recognition, ICDAR05, pp. 80–84, Citeseer, 2005.
[13] M.Lalonde and L. Gagnon, “Key-text spotting in documentary videos using adaboost,” in Proceedings of SPIE, vol. 6064, pp. 507–514, 2006.
[14] Y. H. T. Wing Teng Ho, Hao Wooi Lim, “Two-stage licence plate detection using gentle adaboost,” in First Asian Conf. on Intelligent Information and Database Systems, 2009.
[15] N. Ben-Haim, “Task specific image text recognition,” Master’s thesis, University of California, San Diego, 2008.
[16] L. Dlagnekov, “Video-based car surveillance: License plate, make, and model recognition,” Master’s thesis, University of California, San Diego, 2005.
[17] X. Chen and A. Yuille, “A time efficient cascade for realtime object detection: with applications for the visually impaired,” in Proceedings of the CVAVI05, IEEE Conf. on Computer Vision and Pattern Recog-nition Workshop, 2005.
[18] S. Hanif, L. Prevost, and P. Negri, “A cascade detector for text detection in natural scene images,” inPattern Recognition, 2008. ICPR 2008. 19th Intl. Conf. on, pp. 1–4, 2008.
[19] Y. Freund and R. E. Schapire, “A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting,”Jrnl. of Computer and System Sciences, vol. 1, no. 55, pp. 119–139, 1997.
[20] P. Viola and M. J. Jones, “Robust Real-Time Face Detection,” Intl. Jrnl. of Computer Vision, vol. 2, no. 57, pp. 137–154, 2004.
[21] S. Escalera, X. Bar´ o, J. Vitri`a, and P. Radeva, “Text Detection in Urban Scenes,” inProc. Conf. on Artificial Intelligence Research and Development, pp. 35–44, 2009.
[22] J. Friedman, T. Hastie, and R. Tibshirani, “Additive Logistic Regres-sion: a Statistical View of Boosting,” Annals of Statistics, vol. 28, 1998.
[23] R. Smith, “An overview of the Tesseract OCR engine,” in In Proc. of Intl. Conf. Document Analysis and Recognition (ICDAR), vol. 2, pp. 629–633, 2007.
[24] J. H. Clear, “The British national corpus,” in The digital word: text-based computing in the humanities, pp. 163–187, MIT Press, 1993.

附录1：

Posner, I.; Corke, P.; Newman, P.

"Using text-spotting to query the world"

Intelligent Robots and Systems (IROS), 2010 IEEE/RSJ International Conference on
Digital Object Identifier: 10.1109/IROS.2010.5653151
Publication Year: 2010 , Page(s): 3181 - 3186

写在文章最后

　　本文是我的第一篇原创翻译论文，可能也是我的最后一篇原创翻译论文。这篇论文选自国际会议IROS2011，此会议可以算是机器人领域的一个国际顶级会议。本来由于最近的工作是开始阅读和学习国际顶级会议的论文，所以想顺便在看这些论文的过程中，顺手给翻译成中文，提供给广大网友参考和学习，增加大家的眼界。但是在这个阅读学习和翻译的过程中，我发现由于本人的英文（特别是专业术语）和论文中特定领域的基础和周边知识的局限，这篇论文翻译得很烂，估计读者都看不懂，因为我自己也没看懂其中的很多关键技术点。翻译这篇论文的工作花费了我大约3-5倍于读原文的时间，到头来，效果也不见得有多好。因此我决定暂时或者可能永久地终止后续的翻译工作。

　　看论文其实是一个非常辛苦的过程，不仅要求普通英语水平，还要求专业英语词汇，专业领域的基础和周边知识，而且读一篇论文要读懂，可能不是仅仅是读这篇论文本身，而是要要其中的参考文献，参考文献中的参考文献等等。可能最后要完全弄懂论文本身所描述的东西要读几十篇甚至上百篇相关的论文和网络资料。本人自认为目前的水平还达不到能写出让读者看得很明白的译文。

　　其实翻译完这篇论文之后，我发现，将论文翻译为中文这个工作的性价比非常之低，首先，消耗的时间特别多，其次，效果还不如个人将这些时间花来自己阅读。授人以鱼不如授人以渔。如果读者看了本文之后对于论文中的内容感兴趣，本人建议读者自己阅读原文及其相关参考资料。

posted on 2012-10-13 21:00 九江北阅读(1554) 评论(3) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

[原创翻译]利用文字识别来查询世界

运用文本识别来查询世界

作者：Ingmar Posner and Peter Corke and Paul Newman.

摘要(Abstract)

"Using text-spotting to query the world"

导航

公告