机器学习吴恩达第十七章笔记

十七、应用实例：图片文字识别(Application Example: Photo OCR)

17.1 问题描述和OCR

照片OCR实际是照片光学字符识别.图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从一份扫描文档中识别文字要复杂的多.

为了完成这样的工作,需要采取如下步骤:

文字侦测(Text detection)——将图片上的文字与其他环境对象分离开来
字符切分(Character segmentation)——将文字分割成一个个单一的字符
字符分类(Character classification)——确定每一个字符是什么

以上三步如果应用在系统中,就是机器学习流水线

17.2 滑动窗口

滑动窗口是一项用来从图像中抽取对象的技术.假使我们需要在一张图片中识别行人,首先要做的是用许多固定尺寸的图片来训练一个能够准确识别行人的模型.然后我们用之前训练识别行人的模型时所采用的图片尺寸在我们要进行行人识别的图片上进行剪裁,然后将剪裁得到的切片交给模型,让模型判断是否为行人,然后在图片上滑动剪裁区域重新进行剪裁,将新剪裁的切片也交给模型进行判断,如此循环直至将图片全部检测完.
一旦完成后,我们按比例放大剪裁的区域,再以新的尺寸对图片进行剪裁,将新剪裁的切片按比例缩小至模型所采纳的尺寸,交给模型进行判断,如此循环.
滑动窗口技术也被用于文字识别，首先训练模型能够区分字符与非字符,然后,运用滑动窗口技术识别字符,一旦完成了字符的识别,我们将识别得出的区域进行一些扩展,然后将重叠的区域进行合并。接着我们以宽高比作为过滤条件,过滤掉高度比宽度更大的区域(认为单词的长度通常比高度要大).下图中绿色的区域是经过这些步骤后被认为是文字的区域，而红色的区域是被忽略的.

以上便是文字侦测阶段.下一步是训练一个模型来完成将文字分割成一个个字符的任务,需要的训练集由单个字符的图片和两个相连字符之间的图片来训练模型(图片有两个不完整字符是正样本).

模型训练完后，我们仍然是使用滑动窗口技术来进行字符识别
以上便是字符切分阶段.最后一个阶段是字符分类阶段,利用神经网络、支持向量机或者逻辑回归算法训练一个分类器即可.

17.3 获取大量数据和人工数据

如果我们的模型是低方差的，那么获得更多的数据用于训练模型，是能够有更好的效果的。问题在于，我们怎样获得数据，数据不总是可以直接获得的，我们有可能需要人工地创造一些数据.虽然它并不适用所有机器学习问题.
以我们的文字识别应用为例，我们可以字体网站下载各种字体，然后利用这些不同的字体配上各种不同的随机背景图片创造出一些用于训练的实例，这让我们能够获得一个无限大的训练集。这是从零开始创造实例。

另一种方法是，利用已有的数据，然后对其进行修改，例如将已有的字符图片进行一些扭曲、旋转、模糊处理。只要我们认为实际数据有可能和经过这样处理后的数据类似，我们便可以用这样的方法来创造大量的数据。

请注意一下,我们对图片进行的处理是应该有代表性的.也就是说可能会在验证集出现.并且在使用人工生成前,最好先确认分类器偏差较低.最标准的做法是绘制学习曲线.

17.4 上限分析:下一步工作的pipeline

在机器学习的应用中，我们通常需要通过几个步骤才能进行最终的预测，我们如何能够知道哪一部分最值得我们花时间和精力去改善呢？这个问题可以通过上限分析来回答.
回到我们的文字识别应用中，我们的流程图如下:

一个有效的方法了解是对学习系统使用一个数值评价量度.比如使用字符准确度.假设我们当前系统识别文字的准确率是72%.下面是上限分析的思想:上限分析中,我们选取一部分,手工提供100%正确的输出结果，然后看应用的整体效果提升了多少.
比如,如果我们令文字侦测部分输出的结果100%正确(人为操作让字符切割输入集100%准确),发现系统的总体效果从72%提高到了89%。这意味着我们很可能会希望投入时间精力来提高我们的文字侦测部分.
如果我们想检测字符切割,可以保证文字侦测和字符切割都100%准确.

接着我们手动选择数据，让字符切分输出的结果100%正确，发现系统的总体效果只提升了1%，这意味着，我们的字符切分部分可能已经足够好了。

最后我们手工选择数据，让字符分类输出的结果100%正确，系统的总体效果又提升了10%，这意味着我们可能也会应该投入更多的时间和精力来提高应用的总体表现。

posted @ 2023-02-28 22:16 acmloser 阅读(54) 评论(0) 收藏举报

刷新页面返回顶部

acmloser

机器学习 吴恩达 第十七章 笔记