通过一个案例分析贝叶斯公式与机器识别

贝叶斯公式定义如下,

公式大家都知道,如何理解呢?下面给一个机器识别相关的例子,直观地说明。

在机器识别中,假设机器要识别“一”所在的这个小图像块表示什么字符(可以想象为拿手机对着一页书拍了张照片,机器要认出照片中“一”这个区域代表的是什么字)。

我们先看“一”字在几何上的特点是什么呢?大概认为是 宽高比很大 + 宽度与整篇文章的平均字宽度相当 + 纵向位置在其所在行的中间位置附近。

其中

“待识别的图像是一”  是 “事件”,

“宽高比很大 + 宽度与整篇文章的平均字宽度相当 + 纵向位置在其所在行的中间位置附近”  是  “信息”,

则 P(信息|事件) 的物理意义为, 在图像代表的字符为“一”的情况下, 它的几何特点为 “宽高比很大 + 宽度与整篇文章的平均字宽度相当 + 纵向位置在其所在行的中间位置附近” 的概率。

基本上,在编写类似OCR这样的模式识别软件时,我们都需要做数据字典,此时每个字符到底是什么是已知的,要做的是尽量准确地提出其特征。对这个例子而言就是要提取字符“一”的几何特点描述,固化为数据字典中“一”这个内码对应的描述数据。用贝叶斯公式的语音来说,就是要不断修正 P(信息|事件)。

再看,

P(信息)表示什么呢? 表示在所有待识别的图像小方块中,满足 “宽高比很大 + 宽度与整篇文章的平均字宽度相当 + 纵向位置在其所在行的中间位置附近”  这个几何特点的小方块占所有小方块的比例是多少,或者说概率是多少。

P(事件),表示“一”这个字的字频, 也即是在所有文章中出现“一”的概率有多少(我们认为机器需要识别所有的中文文章)

现在来看 P(事件|信息),

P(事件|信息) 表示 当软件遇到一个小图像块,而这个小图形块的几何特点是“宽高比很大 + 宽度与整篇文章的平均字宽度相当 + 纵向位置在其所在行的中间位置附近”时, 它是“一”的概率 —— 可以认为这就是对机器识别,或人工智能最简单的描述。

可以看到,

1.  P(事件|信息)与 P(信息|事件)正相关,这表示我们在进行机器学习训练时,对“一”的几何特征训练得越精确(即是P(信息|事件)越大),则在对实际样张的识别中,遇到这样的几何特征时,将它识别为“一”是正确的概率越高(即是P(事件|信息)越大)。

2.  P(事件|信息)与 P(信息)负相关,这表示如果很多待识别的小图像方块几何特点都是“宽高比很大 + 宽度与整篇文章的平均字宽度相当 + 纵向位置在其所在行的中间位置附近”(P(信息)很大), 就意味着“如果这么多字符的特点都是这个样,那么我就没把握说有这个特点的图像块就是“一”了”(P(事件|信息)很小);反之,如果只有“一“的特点是“宽高比很大 + 宽度与整篇文章的平均字宽度相当 + 纵向位置在其所在行的中间位置附近”(P(信息)很小),其它字符的特点都不是这样,那我遇到具有这个特点的小图像块,就可以信心满满地说它就是“一”字了(P(事件|信息)很大)。

3. P(事件|信息)与 P(事件)正相关,这表示如果“一”的字频很高、在所有的文章中出现的频率很高(P(事件)大),那我说待识别的小图像块是“一”的正确性概率当然就比较高(P(事件|信息)大);反之,如果“一”是个生僻字,在一般的文章中根本就没出现过几次(P(事件)小),那我说待识别的小图像块是“一”的正确性概率当然也就比较低了(P(事件|信息)小)。

posted @ 2018-01-20 23:38  kingking512  阅读(861)  评论(0编辑  收藏  举报