计算机视觉的理论(北大 秦其明)
http://bbs.matwav.com/viewthread.php?tid=148664
【转贴】计算机视觉的理论(北大 秦其明)
视觉的计算机理论
视觉是一个根据图象发现周围景物中有什么物体和物体在什么地方的过程,也就是从图象得到对观察者有用的符号描述的过程。因此,视觉是一个有明确输入和输出的信息处理问题。
对计算机视觉系统来说,输入是表示三维景物投影的灰度阵列。可以有若干个输入阵列,这些阵列可提供不同方面或不同视角,或不同时刻或在不同波长得到的信息。希望的输出是对图象所代表景物的符号描述。这些描述的确切本质取决于观察的目标和期望。通常这些描述是关于物体
的类别和物体间的关系,但也可能包括如表面空间结构,表面物理特性(形状、纹理、颜色、材料)阴影以光源位置这样的信息。
从输入的图象到得出景物的描述之间存在着巨大的间隙,需要经过一系列的信息处理和理解过程。对这个过程的本质的认识是揭开视觉之谜的关键,但目前我们对些还远未了解清楚。以下我们对此过程作初步的分析。通过视觉识别物体就是把图象的元素与已知的景物中的物体的描述或模型之间建立对应关系。图象中的元素是点状的象素。象素的值就是这个象素处的灰度值,这是点状的数据。而与此相对,物体是通过它的形状、大小、几何结构、颜色等特征来描述的。这些特征是代表物体的整体性质。要在输入的点状数据与物体的整体性质之间建立对应关系就必须要经过一个把点状数据聚集(grouping)起来的过程。这样的聚集过程不只是视觉中有,而且在听觉及其它感觉中也存在。
与如何形成整体性质相联系的问题是恒常性的问题。大家都知道,图象中各点的灰度是景物中多种因素综合作用的结果。这些因素中包括光照条件、物体表面的反射特性、观察者相对于物体的距离和方位、物体表面的反射特性、观察者相对于物体的距离的方位、物体表面形状等。这些因素的任何变化都会改变图象的灰度,也就会改变我们看到的图象。但是我们通过视觉所感觉到的物体的形状,大小和颜色都是与观察者的状况以及照明条件无关的。具体而言,当照明条件和观察者相对物体的距离方位发生变化时,虽然在视网膜上产生的图象要随之而变化,但人看到的总 是某种形状和大小的物体。例如,当你从不同角度和距离观察一张桌子时,桌子在你的眼睛视网膜上的成象会随之而改变,但你看到的始终是一定大小和形状的桌子。外部世界投影在视网膜上产生了图象,这是一个敏感的过程。这个过程得到的图象是以点的方式组织在一起的,是经常变化的。但人在大脑中感觉到的(看到的是物体可变的外表后面的特征)。因此,大脑不但把点状的传感信息聚集成整体,而且经过一个因素分解过程factoring)把这些影响传感器信息的条件,即照明条件,观察者的距离和方位等因素分离出去,得到纯粹的关于物体的信息。这些信息是不随上述条件而变的,因此被称为恒常性(constancies)。总之,大脑不是直接根据外部世 界在视网膜上的投影成象,而是根据经过聚集过程和因素分解过程处理以后的信息来识别物体的。
与分析上述两种处理过程有关的一个非常重要的问题,是把点状的图象信息变换成整体描 述的聚集过程与对各种影响成象结果的因素进行分解的因素分解过程之间关系。在没有完成因素分解过程以前我们能着手进行聚集过程吗?以Marr(D. Marr)为首的一些科学家认为在我们得到关于物体的纯净的信息(clean information),例如深度、表面、方向、反射率等以前,做任何聚集的处理都是无用的。他们把这样的 纯净信息称为本征图象(intrinsic image),因此他们采用基于重构(reconstruction)的视觉信息处理方法,也就是通过 重构这些本征图象来识别物体。而另一派科学家则认为某些予先进行的聚集过程可以为因 素分解过程提供必要的基础。而且还可形成某种反应物体空间结构的图象关系。根据这些 图象关系可以产生对图 象内容的假设。因此,他们采用了基于推理和识别的视觉信息处理方法。前一种观点是以 Marr关于人类视觉的计算理论为代表;后一种观点是以Gestalt(Gestalt)学派,及其后 续者,如Lowe[Low 85]、Pentland[Pen 86]等关于感知组织(Perception organization)的理论为代表。这两派理论各自反映了视觉过程中的基本矛盾,但都未能对视觉过程作出满意的解释。这两种理论的争论推动了对视觉的研究(见图1.1)。
1.2.1 Marr(Marr)的视觉计算理论
Marr的视觉计算理论立足于计算机科学,系统地概括了心理物理学、神经生理学、临床神经病理学等方面已取得的所有重要成果,是迄今为止最系统的视觉理论。Marr的理论的出现对神经科学的发展和人工智能的研究产生了深远的影响。
Marr认为视觉是一个信息处理过程。这个过程根据外部世界的图象产生对观察者有用的描述。这些描述依次由许多不同的,但固定的每个都记录了外界的某方面特征的表象(representation)所构成或组合而成。一种新的表象之所以提高了一步是因为新的表象表达了某种信息,而这种信息将便于对信息作进一步解释。按这种逻辑来思考可得到这样的结论:即在对数据作进 一步解释以前我们需要关于被观察物体的某些信息,这就是所谓的本征图象。然而,数据 进入我们的眼睛是要经过光线为媒介的。灰度图象中至少要包含关于照明情况,观察者相 对于物体的位置的信息 。因此,按照Marr的方法面临的问题是如何把这些因素分解开。他认为低层视觉(即视觉 处理的第一阶段)的目的就是要哪些变化是由哪些因素引起的。大体上来说这个过程要经 过两个步骤来完成:第一步是获得表示图象中的变化和结构的表象。这包括检测灰度的变化,表示和分析局部的几何结构,以及检测照明的效应等处理。第一步得到的结果被称为初始简图(Primal Sketch)的表象;第二步对初始简图进行一系列运算得到能反映可见表面几何特征的表象 ,这种表象被称为二维半(2.5 D)简图或本征图象。这些运算中包括由立体视觉运算提取深度信息,根据灰度影调、纹 理等信息恢复表面方向,由运动视觉运算获取表面形状和空间关系信息等。这些运算的结 果都集成到本征图象这个中间表象层次。因为这个中间表象已经从原始的图象中去除了许 多的多义性,是纯粹地 表示了物体表面的特征,其中包括光照、反射率、方向、距离等。根据本征图象表示的这 些信息可以可靠地把图象分成有明确含义的区域(这称为分),从而可得到的比线条、 区域、形状等更为高层的描述。这个层次的处理称为中层视觉处理(intermediate Processing)。Marr视觉理论中的下一个表象层次是三维模型,它适用于物体的识别。这个层次的处理涉及物体,并且要依靠和应用与领域有关的先验知识来构成对景物的描述,因此被称为高层视觉处理。
Marr的视觉计算理论虽然是首次提出的关于视觉的系统理论,并已对计算机视觉的研究起了巨大的推动作用,但还远未解决人类视觉的理论问题,在实践中也已遇到了严重困难。对此现在已有不少学者提出改进意见,关于这个问题将在第二章中详细讨论。
1.2.2 基于推理的视觉理论
由于只根据图象数据本身不能对相应的物体空间结构提供充分的约束,也就是说这是一个约束不充分(underconstrained)的问题。因此,为了理解图象的内容必须要有附加的约束条件。Gestalt心理学家发现的感知组织现象是一种非常有力的关于象素整体性附加约束。从而为视觉推理提供了基础。Gestalt是德文Gestalt的译音。英文中常译成form(形式)或shape(形状)。Gestalt心理学家所研究的出发点是"形",它是指从由知觉活动组织成的经验中的整体。换言之,模式塔心理学家认为任何"形"都是知觉进行了积极组织或构造的结果或功能,而不是客体本身就有的。在视觉研究中Gestalt理论认为把点状数据聚集成整体特征的聚集过程是所有其它有意义的处理过程的基础。人的视觉系统具有在对景物中的物体一无所知的情况下从景物的图象中得到相对的聚集(grouping)和结构的能力。这种能力被称为感知组织。按Gestalt理论感知组织的基本原理被称为ragmant,意却"简约合宜"。它来源于Gestalt心理学家发现有些"形"给人的的感受极为愉悦的。这就是那些在特定条件下视觉刺激被组织得最好,最规则(对称、统一、和谐)具有最大限度的简单明了性的"形"。对这种形他们发明了一个独特的字眼,即Pragnant,有人把这个词译成"完形"。人的视觉系统具有很强的检测多种图案和随机的,但又有显著特色的图象元素的排列的能力。例如,人可从随机分布的图象元素中立即检测出对称性,集群、共线性、平行性、连通性和重复的纹理等。感知组织把点状的传感数据变换成客观的表象。在这些表象中用于描述的词藻不是在点状定义的图象中的灰度,而是如形状、形态、运动和空间分布这样的描述。由感知组织完成的这样的变换可被看与对实函数作Fourior变换相似。在作Fourior分析时,一个函数是以Fourior域中的Fourior分量来表示的。利用Fourior分析,我们可以用一组Fourior系数来描述一个 函数。这样做的优点是用一组有限的系数就可提供一个良好的整体描述,这样使复杂性大为降低。虽然,很可能这个函数没有一个点的值是被正确地表示出来。这里就象是在感知中那样,局部与整体虽然是相互联系的,但本质上是不同的。总之,感知组织对传感器数据进行了整体的分析,得到一组宏观的表象。这样的宏观表象就是我们进行认知的活动时的基本构件,用它们可构成我们对外部世界的描述。
Gestalt理论反映了人类视觉本质的某些方面,但它对感知组织的基本原理只是一种公理性的描述,而不是一种机理性的描述。因此自从在本世纪二十年代提出以来未能对视觉研究产生根本性的指导作用。但是研究者对感知组织原理的研究一直没有停止。特别是在80年代以后,Witkin 和Tenenbaum[Win 83],Lowe[Lowe 86],Pentland[Pen 86]等人在感知组织的原理,以及在视觉处理中应用方面取得了新的重要研究成果。
方法以取长补短的方式结合起来[witkin 83]。
一种改进的设想是提出了基于模型的视觉理论[Gib 67][Pen 86][Gib82]。这种理论认为信息的概念是与从一组候选的对象中作出选择相联系。如果不知道一组可供选择的刺激或响应,人们就对刺激或响应无从说起。此外,人们还必须知道定义这组候选物和对这组候选物的成员之间进行区别的特性或特征。而且随着要解决的任务不同,这些特征和特性也不同的。例如,在视觉敏感中,刺激引起在视网膜的一组可能的状态中选择一种状态,并得到一幅图象。在感知中,选择是根据不变量(Constancies)和参数( Parameters)作出的。如果一个婴儿能听到声音,但他的感知不变量只包括"安静"和"噪声"的话,那么任何音乐对他来说者将包括一样多的信息,而这些音乐对一个训练有素的音乐家来说就会包含丰富得多的信息。
此外这种视觉理论利用特征检测器的概念作为把点状的图象数据与宏观信息相联系的桥梁[Pentland 86]。因此,基于模型的视觉理论体现了Gestalt理论中的选择和整体性。
另一种改进的视觉的连接主义模型(Connectionist moddel of vision)[Fel 80, 82, 85][Bal 84,86]。动物的大脑进行计算的方式不同于当前传统的串行计算机。动物神经单元的计算相对是比较慢的。但它们之间具有复杂的并行连接,形成高度的并行计算结构。当前神经科学中的许多研究都是关于探索这些连接,以及试图发现这些连接是如何传递信息的。视觉的连接主义理论的基本前提是认为单个神经元并不传递大量的符号信息,而是通过与许多相似的神经元以适当的方式连接来完成计算的。从点状的图象数据变换成一个整体的描述需要大量的计算,如前所述,这对目前的串行计算机来说是难以承受的。而上述的并行计算结构则提供了一种可能的途径。连接主义模型的视觉理论认为Hough 变换起重要作用。Hough变换利用样板或模型(即圆周、直线、和其它几何形状)和参数(变量)。来完成点状的传感器数据到整体描述的聚集。 此外,Hough变换从本质上来说是适合于由并行结构来实现。Ballard还提出了连接主义模型的计算结构,详见[Bal84]。
1.2.4 感觉的解析计算模型[Mar83]
目前数字计算机已能代替人完成复杂的科学计算, 其速度远超过人脑。并且现在已研制出能在比较窄的领域里表现出成年人推理能力的程序。但目前由计算机控制的智能机器在感觉能力方面表现出来的水平大致只能与蚱蜢相当。人们在这些领域里所作好努力是差不多的,但结果都有这么大的差别,其原因是什么?此外,人的感觉的反应是极其迅速,并且非常可靠的。这可能意味着,感觉系统的工作更象是从某种相关的记忆里作回想,而不是进行了某种计算。这里所说的是指由模型化为图灵机(Turing Machine)或其等同物的计算。因此,这就很自然地产生一个问题,感觉过程能否模型化为图灵机,并用数字计算机来实现呢?也就是说,感觉过程的模型能否建立在符号计算的基础上。对人脑和神经生理的许多研究成果表明解析计算(Analytical Computation)能更好地反映感觉过程的某些重要特征。Hopfield的神经网络模型就是一种解析计算模型[Hopfield 82][Hopfield & Tank 85]。
这种模型认为人脑中进行的信息处理不是离散的符号处理,而是一种连续的反应过程。这就是说,神经网络中的神经元之间的信息交流除了在最后一层以外的的所有层次上都连续的。来自环境的输入信息引起网络的进化过程,这个过程是由某种最小值原则导引的。系统的稳定状态就是系统的局部最小值。这样的连续过程服从解析计算模型的微分方程。目前这方面的研究面引起广泛的兴趣,并已取得不少有意义的成果。
1.4 人类视觉与计算机视觉的比较
目前人们所建立的各种视觉系统极大多数是只适用于某一特定环境或应用场合的专用系统,而要建立一个可与人类的视觉系统相比拟的通用视觉系统是非常困难的。主要原因有以下几点:
1. 图象对景物的约束不充分。首先是图象本身不能提供足够的信息来恢复景物,其次是当把二维景物投影成二维图象时丧失了深度信息。因此,需要附加的约束才能解决从图象恢复景物时的多义性。
2. 多种因素在图象中相互混淆。物体的外表受材料的性质、空气条件、光源角度、背景光照、摄象机角度和特性等因素的影响。所有这些因素都归结到一个单一的测量,即象素的灰度。要确定各种因素对象素灰度的作用大小是很困难的。
3. 理解自然景物要求大量知识。例如,要用到阴影、纹理、立体视觉、物体大小的知识;关于物体的专门知识或通用知识,可能还关于物体间关系的知识等。由于所需的知识量极大,难以简单地用人工进行输入,可能要求通过自动知识获取方法来建立。
4. 人类虽然自己就是视觉的专家,但它又不同于人的问题求解过程,难以通过自已说出自己是如何看见事物的,从而给计算机视觉的研究提供直接的指导。
视觉机理的复杂深奥使有些学者不禁感叹道:如果不是因为有人的视觉系统作为通用视觉系统的实例存在的话,他都怀疑不能找到建立通用视觉系统的途径。从另一方面来看,正如Rossen所说的:"从进化的观点来说,生理系统是人类解决复杂问题的最好的百科全书。"对建立通用视觉系统这个难题来说,在长期进化过程中高度发展了的人类视觉系统确实提供了最好的实例。例如,对人类视觉中可区别的独立视觉模块的研究就帮助我们认识了在没有先验知识的条件下初级视觉处理能否获得丰富的有用描述的问题。
许多心理物理学实验证明在人的视觉系统中似乎存在独立的特定模块。其中著名的例子有Land[Lan 71]关于照明的计算和Julesz[Jul 71]关于立体视觉的实验。例如,Julesz 的实验证明了人的视觉系统可在对图象的内容一无所知的情况下进行立体视觉处理,获得深度信息。他用计算机产生左、或两幅由随机点组成的图象。从单幅图象看,这两幅图都不过是由一些随机分布的点组成的图案,并无物理含义。但当用立体镜观察,把这两幅图融合在一起时就得到了立体信息(详见第五章)。这说明在人的视觉系统中似乎存在着独立的立体视觉模块。除此以外还有其它的独立模块。Horn[Hor 75][Ike 81]研究了人类视觉根据影调得到物体形状的能力,steven[ste 81]研究了人对表面轮廓作出三维形状解释的能力等。更多的有关研究可参见[Bob 81]。显然,这些研究结果与70年代初期流行的认为初级视觉处理难以得到丰富的有用描述的观点相反,并且标志着80年代的计算机视觉研究的趋势与10年以前已大不相同。其主要特点是研究集中在与人类视视觉系统中的可区分的独立模块相应的课题上,并且许多研究者希望他们的工作能与心理物理学和神经生理学的理论有直接的联系。从长远来看,建立人类视觉的计算理论,并进而建成可与人类视觉系统相比似的通用视觉系统是计算机视觉研究的最终目标。对人类视觉的研究涉及神经生理学、心理物理学、心理学等多方面。对人类视觉机理的了解释为建立视觉的计算理论提供有益的启示,与此同时,视觉计算理论的研究又促进了在上述领域中引入计算机技术。这又推动了这些学科自身的发展。
强调计算机视觉研究与人类视觉研究之间的紧密关系,并不意味着计算机视觉系统要机械地模仿人类视觉系统。因为生物视觉系统是生存竞争中进化的产物,带有由此而来的优点和局限性。[Bra 83][Per 83]其优点是具有高分辨率、有立体观察、优越的识别能力和灵活的推理能力,可灵活地根据各种视觉线索进行推理:
1. 能否根据距离的远近对不同的物体,特别是对不同的生物作出不同反应的能力应该是视觉系统发展中的重要准则。视觉系统的优点在于不与环境直接接触就可以作出响应。如果视觉系统不能反应距离远近,那么就使视觉系统的这个优点受到严重限制。
2. 应用视觉的初等生物体需要有能力自动地对环境的刺激作出响应。理解能力是进化的更高阶段中感知过程的结果。
3. 感觉机制必然是在足以确保生存或对生存有利的基础上发展起来的。因此不能认为这些机制是利用了从数学或计算机观点来看的最优解。所以有必要具体分析人类视觉系统的特点。人类视觉系统大致有以下特点:
(1) 深度感觉的首要性。可能初等生物体表面上的光敏区开始时只能提供关于光源的方向信息,或者阴影可能表示一个捕食动物正在逼近的方向。感光区域上感知的阴影面积的增加可能意着捕食者正在逼近,这可能是深度感知的早期形式。这样的进化过程只是一种分析,但是有依据说明在人类视觉系统中探测阴影逼近的机能直接与感知物体在深度上的移动有关。对人类试验者进化的心理物理学实验和对猫进行的生理学实验都支持这样机理的存在。这种类型的机理与Marr提出的从视网膜上的二维表象开始,经过一个或多个中间表象计算再作三维解释的机理不同。
(2) 感知是个自动进行的过程。感知的特点在于它是一个自动进行的过程,并且它抵制根据与其相矛盾的知识作出修改。实验证明,如果让一个观察者先观察一个旋转着的收缩螺丝,那么在他习惯以后再去观察另一个物体,例如,一张人脸,就会感到人脸在膨胀。观察者可能可已经知道人脸并 没有膨胀,但这并不防碍得到这种膨胀的感觉。还有许多例子可证明人会出现这种明知与常识或已知情况相矛盾的感觉。
虽然与感觉相矛盾的知识不能改变人的感觉,但显然它可影响人对视觉刺激作出不同的反应。一个人如果根据情况已知不会有大的物体正在逼近,那么当他看到出现一个影子时不会逃跑。但当影子突然出现时,他还会不自觉地感到害怕。人类虽然已具有较高级的理解能力,但视觉系统似乎保留着对某种刺激自动作出反应的能力。从进化的观点,感知与知识相分离可能是有道理的,但对用于准确分析三维景物的视觉系统来说就是不可取的。
(3) 感知中对启发式知识的应用。自然环境中的许多物体是刚体,所以在进行化过程中发展起来的人类视觉系统在根据视网膜上的物体投影分析物体时假设物体是刚体,以简化分析是有道理的。例如,如果视网膜上成象的大小变化,而形状保持不变,就可认为物休的远近起了变化。但在某些特殊情况下,在分析成象的大小变化时视觉系统并不采用通常的刚性物体的假设,而是采用不同于刚性假设的其它特殊过程。例如,当在平面中旋转图1.5(a)所示的由两个螺纹状图(图1.5(b)和(c))连接成的图形时,人在观察时通常会感到这是一个正在变形的三维形状。这种情况下在视网膜上的成象是与刚体的运动不相符合的,也即图形在平面内旋转,而这个运动的刺激图象似乎给人以图形的一部分正在膨胀,而另一部分正收缩的印象。在刚体上是无法同时造成收缩和膨胀印象的。因此,这使人感到是一个正在变形的三维物体。这种感觉并不因为刚性物体的假设而消失。
图1.5 (a)(b)(c)这个二维图形在平面内旋转时,使人感到是一个非刚性的三维形状,
(b)、(c),这两个图象在平面内旋转时似乎在膨胀或收缩,这要取决于旋转的方向。
在计算机视觉系统中如果在计算中保持物体的刚性假设就可以避免上述这种不可靠的感觉。虽然人类视觉中的这种近似过程有时会造成错误,但比单纯应用刚性假设可能有下优点:
(1) 这样的过程使系统不致于过分偏向于刚体运动的感知,不然就会反过来影响对非刚体的感知;
(2) 人类视觉系统所应用的启发式感知的过程对生理系统来说可能要比采用通用的刚性物体假设简便;
(3)人类视觉系统对几何问题不采用产生严格求解方法的原因是这样可以更为迅速地求解。对动物的生存来说,一个可迅速地探测到潜在危险的近似求解方法比虽然可准确识别,但费时过多的方法要有用得多。
除了以上特点以外,人类视觉系统有分辨率高、识别能力优越、能进行灵活的推理等优点,以及在根据外部视觉成象推论物体三维形状或姿态时会产生严重错误的弱点[Perkins 83]。综上所述,从建立通用的计算机视觉系统的角度来看,关键之点不是机械地模仿认类视觉系统,而是通过对人类视觉系统的研究发现是什么因素使人类视觉系统的性能如此之好,并且把它结合到计算机视觉系统中去
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/carl2380/archive/2010/08/19/5825196.aspx