20200324 视觉感知

视觉

视觉系统具有将外部世界的二维投影重构为三维世界的能力。具体有两个功能：一是目标知觉，即它是什么？二是空间知觉，即它在哪里？

视觉生理机制

视觉在人类的感觉系统中占主导地位，如果视觉感知与其他感知相矛盾，人们所反应的一定是视觉信息。

外界的物体在视网膜成像，实际上是光线这个刺激因素被视网膜的感光细胞（视杆细胞和视锥细胞）转变为电信号，然后经视网膜内双级细胞传到神经节细胞形成神经冲动，即视觉信息。视觉信息再经视神经（由很多神经节细胞发出的神经纤维组成）左右交叉进入外侧膝状体（重要的视觉信息传导中间站），它们发出大量的纤维组成所谓视辐射，最后投射到大脑枕叶的视觉中枢，即视觉皮质。视觉信息只有传到脑的视觉皮层并经过处理、分析，才能最后形成主观的视觉感受。

$C:\Users\meimei\Desktop\新建文件夹\brain\v2-7f6f601ab75ffa65531ce01a690e8697_r..jpg$

视网膜

视网膜是脑的一部分，紧贴在眼球后壁上，厚度只有0.5mm左右。包括三级神经元：第一级是光感受器，由无数视杆细胞和视锥细胞组成；第二级是双极细胞；第三级是神经节细胞。这三级神经元构成了是视网膜内视觉信息传递的直接通道。此外，在第一级与第二级以及第二级与第三级神经元之间，还有中间神经元：水平细胞和无长突细胞。它们在突起的细胞层之间水平延伸，把相邻的神经元联系起来。

人的视网膜上共有600万-700万视锥细胞、1.1-1.3亿个视杆细胞，传出神经元——神经节细胞的数目大约只有感受细胞的百分之一。数十个-数百个感受细胞通过双极细胞以及水平细胞和无长突细胞与一个神经节细胞相联系。

$C:\Users\meimei\Desktop\新建文件夹\brain\6303485308a1284ac950436d (3).jpg$

视网膜的中心区域，叫做视斑，锥体细胞占绝大多数。视斑的中心，叫做中央凹，全是锥体细胞，且锥体细胞密度最高，面积只有1mm²，但与高级脑中枢有一对一的连接，产生最清晰的视觉。视杆细胞的密度在中央凹处很低，而在旁中央区最高。神经节细胞分布大致与视锥细胞相同。这种分布特点决定了中央区视野具有极高的敏感度（分辨空间细节的能力），而旁中央区视野对弱光最敏感。

在脊椎动物的视网膜中，光图像转化成神经图像的过程由以下三个阶段组成【739】：①响应神经元层的图像传导；②将结果信号（对光刺激的反应产生）以化学性突触的形式传输给一层二极性单元；③再以化学性突触的形式把结果信号传给称为神经节的输出神经元。

在两个结果信号传输阶段，有专门侧向连接的分别称为水平连接神经元和无长突细胞的神经元，它们的工作是修改感应层之间的传输。另外有被叫做中间网状细胞的分配元素，它们的工作是将信号从内部感应层传到外部感应层。一些研究人员已经建立了模拟视网膜结构的电子芯片【86】。

$C:\Users\meimei\Desktop\新建文件夹\brain\6303485308a1284ac950436d (5).jpg$

光感受器

人类的视网膜内有4种光感受器：视杆细胞和3种视锥细胞。其中，视杆细胞能感受极其微弱的光线，但不能分辨颜色，其光谱吸收曲线的峰值波长为500nm；视锥细胞只对较强的光线产生反应，能感受不同的颜色，3种视锥细胞的光谱吸收峰值分别在430nm、530nm、560nm，对应篮、绿、红三种颜色。

$C:\Users\meimei\Desktop\新建文件夹\brain\6303485308a1284ac950436d (4).jpg$

双极细胞感受野的中心区与感受器直接联系，其外周区则通过水平细胞与感受器间接联系。

每一个感受器同时既与双极细胞也与水平细胞建立联系。水平细胞通过树突在水平方向上联系附近的许多感受器细胞，然后将总合的信号传递给双极细胞。通过水平细胞的横向联系，形成了双极细胞和神经节细胞的感受野外周区。水平细胞的感受野是一种均匀的结构，光刺激任何位置都引起均一的超极化反应。

无长突细胞的胞体在双极细胞和神经节细胞之间，通过树突在水平方向上联系附近的许多神经节细胞，彼此之间也相互建有联系，因此其空间总和的范围比水平细胞要大得多。

神经节细胞是视网膜的输出级神经元，一个神经节细胞通过双极细胞和水平细胞联系许多个感光细胞的输入，相邻的神经节细胞又通过无长突细胞相互联系，其感受野与双极细胞一样，也包括中心区和外周区。

无论哪一类细胞，感受野的中心区和外周区在功能上都是相互拮抗的，光刺激周边区会减弱对中心区刺激的反应强度。

外膝体

视觉信息在视网膜内初步加工后，通过视神经和视束纤维传入丘脑。在丘脑内分成两条通路：①外膝体-皮层通路，是主要的视觉传入通路，90%视网膜纤维走该通路。②上叠体-丘脑枕-皮层通路，只有10%视网膜纤维走该通路。在丘脑枕内与视觉有关的主要是腹外侧丘脑枕和下丘脑枕，分别接受来自视网膜和上叠体的传入纤维，具体功能特性有待研究。

灵长类的外膝体由6层细胞构成。两眼的输入分别投射到3个不同层次。从同侧眼来的纤维终止于5、3、2层，从对侧眼来的纤维终止于6、4、1层。这些相互重叠的每一个层次都与视网膜有点对点的投射关系。这种对应关系有利于建立双眼间的相互联系，为在视皮层形成双眼视差（深度和立体感）调谐奠定了基础。

在视网膜和外膝体神经元的传统感受野外，还存在一个范围相当大的区域。这个区域对视觉刺激不产生直接反应，但对感受野内刺激所引起的反应有调制作用，被称为去抑制区。去抑制区与感受野之间的颜色相互作用可能是产生颜色对比和色觉恒定性等心理现象的神经基础。

视皮层

细胞组成

视皮层本身的神经元主要有两种：一是星形细胞，其轴突与投射纤维联系；二是锥体细胞，呈三角形，尖端超表层，向上发出一个长的树突，基底则发生几个树突作横向联系。

层次结构

视皮层与其他皮层区一样，包括6个细胞层次，由表及里用罗马数字I～VI表示。皮层神经元的突起的主干都沿与皮层表面相垂直的方向分布；树突和轴突的分枝则横向分布在不同层次内。不同皮层区之间由轴突通过深部的白质进行联系，同一皮层区内由树突或轴突在皮层内的横向分枝来联系。

分区结构

视觉皮层包括初级视觉皮层（V1，亦称纹状皮层），以及纹外皮层（V2，V3，V4，V5等）。初级视皮层位于17区，纹外皮层位于18区和19区。18区包括3个视区：分别称为V2、V3和V3A，它们的主要输入来自V1。V1和V2是面积最大的视区。19区深埋在上颞沟后壁，包括V4和V5。V5也称作中颞区，已进入颞叶范围。颞叶内其他与视觉有关的皮层区还有内上额区、下颞区。顶叶内有顶枕区、腹内顶区、腹后区和7A区。枕叶以外的皮层区可能属于更高的层次。

神经通路

Wernicke和Geschwind认为，视觉信息由视网膜传至外侧膝状体，从外侧膝状体传至初级视皮层（17区），然后传至一个更高级的视觉中枢（18区），并由此传至角回，然后至Wernicke区。在Wernicke区，视觉信息转化为该词的语声（听觉）表象。声音模式形成后，经弓状束传至Broca区。

V1的输出信息送到两个渠道，分别称为背侧流和腹侧流。背侧流起始于V1，通过V2，进入背内侧区和中颞区（MT，亦称V5），然后抵达顶下小叶。背侧流亦称为“空间通道”，参与处理物体的空间位置信息以及相关的运动控制，例如眼跳和伸取。腹侧流起始于V1，依次通过V2、V4，进入下颞叶。该通路常被称为“内容通道”，参与物体识别，例如面孔识别。该通路也与长时记忆有关。

根据形态和生理学的研究，17区不投射到侧皮层而仅投射到18区（纹前区），18区向前投射到19区（纹外区），但又反馈到17区。

热点问题

为什么要这么多的代表区？是不是不同代表区检测图形的不同特征？或是不同代表区代表处理信息的不同等级？会不会有较高的代表区把图形的分离特征整合起来，从而给出图形的生物学含义？是不是有专门的代表区负责储存图像（视觉学习记忆）或主管视觉注意？

感受野

研究发现，有4种类型视皮层神经元。

1．简单细胞。感受野面积较小，给光区和撤光区分离，有较明显的空间总合，反应具有线性特征，没有或很少有自发放电。具有特定方向和在视野中有固定位置的刺激，最能激发简单细胞。

2．复杂细胞。给光区和撤光区重叠，反应具有非线性特征，空间总合不明显，自发放电强。相比简单细胞：①反应要求一定方位的线性刺激，但不管在视野中的部位如何；②当光线移过视野时，能继续激发对适当方位的线性刺激。由此，复杂细胞对于适当方位的移动的直线刺激能继续激发，可以认为它们接受大量的简单细胞输入的刺激。

3．超复杂细胞。能从几种复杂细胞中接受兴奋性和抑制性的输入信息。反应特点同复杂细胞，也反应特殊方位的线性刺激，但有明显的端点抑制，这种刺激不能超过某种长度。

4．极高度复杂细胞。反应移过视野的边，只要是这边有一特定的宽度。有些极高度复杂细胞特别反应两个边形成的直角，这种细胞也称为角探测器。

视皮层神经元对视觉刺激的各种静态和动态特征都具有高度选择性。一是方位/方向选择性。只有当刺激线条或边缘处在适宜的方位角并按一定的方向移动时，才表现出最大兴奋（最佳方位或最佳方向）。二是空间频率选择性。每一个视皮层细胞都有一定的空间频率调谐。在同一皮层区内，不同细胞也有不同的空间频率调谐。三是速度选择性。对移动图形的反应比对静止的闪烁图形要强得多。而且对某一最佳速度的反应最大，移动速度高于或低于这一速度时，反应都会减小。四是双眼视差选择性。与外膝体细胞不同，大部分视皮层细胞接受双眼输入，在左、右视网膜上分别有一个感受野。这一对感受野在视网膜上的位置差（相对于注视点）称为“视差”（disparity）。根据视差可判断该细胞的调谐距离，从而形成深度视觉。五是颜色选择性。与外膝体细胞一样，皮层细胞也具有颜色选择性。与皮层下的单颉顽式感受野不同，视皮层的颜色感受野具有双颉顽式结构。例如对于R-G型感受野，其颜色结构可能有两种形式：感受野中心可能被绿视锥细胞的输入兴奋，同时被红视锥细胞输入抑制，或者相反；外周对颜色的反应性质正好与中心相反。因此，该细胞通过感受野中心的颜色颉顽能分辨红色和绿色，通过中心与外周的相互作用能使红—绿对比的边缘得到增强。

功能柱

研究表明，功能柱系统正好与各种特征检测功能一一对应。所有功能柱都垂直于皮层表面，排列成片层状。

1. 方位柱。位于17区和18区。细胞的敏感方位总是很有规律地按顺时针或逆时针方向变化。

2. 眼优势柱。左眼优势细胞与右眼优势细胞通过一定的间隔交替出现。

3. 空间频率柱。皮层细胞的最佳空间频率也是有规则地以柱的形式垂直于皮层表层排列。试验证明，猫皮层17区存在该结构。

4. 颜色柱。试验发现，有颜色特异性的细胞和没有颜色特异性的细胞成串交替出现。同一柱内所有的细胞具有相同的光谱特性。

颜色视觉

1854年，Grassmann建立了颜色混合定律：

1. 人的视觉只能分辨三种变色：明度、色调和饱和度。明度系指彩色光的亮度。色调是彩色彼此相互区分的特性。饱和度指彩色的纯洁性，当光谱中掺入白光成分越多越不饱和。

2. 在由两个成分组成的混合色中，如果一个成分连续地变化，混合色的外观也连续地变化。由此又导出如下两个定律：①补色定律，每一种颜色都有一个相应的补色，它们以适当比例混合，产生白色或灰色；如果两者按其他比例混合，产生近似比例大的颜色成分的非饱和色。②中间色定律，任何两个非补色相混合，其色调决定于两颜色的相对数量，其饱和度决定于两者在色调顺序上的远近。

3. 凡视觉上相同的颜色，不管其光谱组成是否一样，在颜色混合中都是等效的。由此又导出颜色替代定律，即相似色混合后仍相似。

4. 混合色的总亮度等于组成混合色的各种颜色光亮度的总和，即亮度相加定律。

知觉恒常性

人能在一定范围内不随知觉条件的改变而保持对客观事物相对稳定特性的组织加工，这是人们知觉客观事物的一个重要特性。

1. 大小恒常性。影响因素有：①刺激条件。条件越复杂，则越表现出常性，当刺激条件减少，则常性现象减少；②距离因素。距离很远时，常性消失；③水平观察时，常性表现大。垂直观察时，常性表现小。此外，在用人工瞳孔时，大小恒常性消失。参考庞佐错觉、缪勒-莱尔错觉、相对大小错觉。

2. 形状恒常性。

3. 颜色恒常性。

4. 距离恒常性。

5. 明度恒常性。

VOR

文献【22】比较了前庭视觉的线性系统模型。前庭视觉反射作用（Vestibulo-Ocular Reflex，VOR）是眼球运行系统的一部分，其作用是让眼球向与头转动相反的方向运动，以维持视觉（视网膜）图像的稳定性。VOR由前庭核酸的前端神经元调节，前端神经元从前庭感知神经元中接受头部旋转信息并处理，将结果告知眼球肌肉的运动神经元。VOR的递归网络模型能重现和解释调节VOR的神经元的处理信息时的静态、动态、非线性和分布性许多方面的特性。

视觉理论

视觉信息处理是一个根据图像发现周围景物中有什么物体和物体在什么地方的过程，也就是从图像得到对观察者有用的符号描述的过程。图像由一个个像素构成，这是点状的数据集合。而与此相对，物体是通过它的形状、大小、几何结构、颜色等特征来描述，这些特征代表物体的整体性质。要在输入的点状数据与物体的整体性质之间建立对应关系就必须经过一个把点状数据组织（Grouping）起来的过程。与如何形成整体性质相联系的是恒常性（Constancy）问题，人的大脑能够感觉到物体可变外表后面的恒定特性。因此，大脑不但把点状的传感信息组织成整体，而且经过一个因素分解过程（Factoring）把这些影响传感器信息的条件，比如光照条件、观察者的距离和方位等因素分离出去，得到纯粹的关于物体的信息。

关于组织和因素分解的关系，有两种流派观点：一是基于重构的观点，主要是以马儿为代表学者认为在得到关于物体的纯粹信息，如深度、表面、方向、反射率等以前，做任何组织的处理都是无用的。他们把这种纯粹的信息称为本征图像。二是基于推理的方法，认为某些预先进行的组织过程不仅可以为因素分解过程提供必要的基础，而且还可以形成某种反应物体空间结构的图像关系，根据这些图像关系可以产生对图像内容的假设。

计算机视觉中的两种方法

常见理论流派有4种：格式塔偏重强调视觉组织的先天论的因素。构造论对于学习和记忆的因素赋予较大影响。动作探讨集中于视觉者在他的环境中做动作探测所产生的反馈作用。生态学着重强调刺激模式中所固有的全部环境的信息。

建构理论

黑尔姆霍兹认为，来自感觉的不充分信息可因无意识推论而得到增强，无意识推论可对感觉信息追加一层意义。在此基础上，布鲁纳等发展建构理论，认为所有感知都受到人们的经验和期望的影响。基本假设如下：

1. 知觉是一个活动的、建构的过程，它在某种程度上要多于感觉的直接登记，其他事件会切入到刺激和经验之中来。

2. 知觉并不是由刺激输入直接引起的，而是所呈现刺激与内部假设、期望、知识以及动机和情绪因素交互作用的终极产品。

3. 知觉有时可受到不正确的假设和期望的影响，因而也会发生错误。

建构论者主张有组织的知觉基础是从一个人的记忆中选择、分析并添加刺激信息的过程，而不是格式塔论者所主张的大脑组织的天生定律所引起的自然操作作用。已有的知识经验对知觉的影响是多方面的，主要以假设、期望或因式的形式在知觉中起作用，但最引入注目的是体现为上下文的作用。

Gregory提出知觉的假设考验说，认为知觉是一种包含假设考验的建构过程，人通过接收信息、形成和考验假设，再接收或搜寻信息，再考验假设，直到验证某个假设，从而对感觉刺激作出正确的解释。假设考验说赋予知觉过程以主动性和智慧性的色彩。照这个学说看来，感觉刺激的物理特征、刺激的上下文和有关的概念都可激活长时记忆中的有关知识而形成各种假设，知觉因而是以假设为纽带的现实刺激信息和记忆信息相结合的再造。

还有学者认为，知觉是定向、抽取特征，与记忆中的知识相对照，然后再定向、再抽取特征并再对照，如此循环，直到确定刺激的意义，这与假设考验说有许多相似之处。

直接知觉

1950年，吉布森提出生态直觉理论，认为直觉是直接的，没有任何推理步骤、中介变量或联想。强调自然界的刺激是完整的，感觉是因演进而对环境的适应，主张知觉只有直接性质，否认已有知识经验的作用。对生态学的观点来看，知觉是环境向知觉者显露的过程，神经系统并非建构知觉，而是萃取它们，知觉系统从流动的系列中抽取不变性。主要假设：

1．刺激眼睛的光线模式是一个光学分布（Optic Array）；这种结构性的光线包含来自环境中的所有投射到眼睛的视觉信息。

2．这种光学分布提供关于空间中目标分布特征的明确的或恒定的信息。这种信息存在多种形式，包括结构极差、光流模式和功能承受性。

3．知觉是在很少或没有信息加工参与的情况下，通过共振直接从光学分布中提取各种丰富信息。

格式塔理论

Gestalt心理学诞生于1912年。提出感知组织现象是一种非常有力的关于像素整体性的附加约束。研究的出发点是“形”，即由知觉活动组织成的经验中的整体。强调经验和行为的整体性。认为知觉问题涉及比较和判断。相信大脑中组织的固有和天生的法则，在各种知觉因素之后存在着一个“简单性”原则，此法则解释了图形—背景的分化、对比、轮廓线、趋合、知觉组合的原则以及其他组织上的事实。他们断言，包含着较大的对称性、趋合、紧密交织在一起的单位以及相似的单位的任何模式，对于观察者来说外表上显得“比较简单”。

格式塔学派创始人之一的韦特海姆系统地阐述如下“组合原则”：1．邻近原则。2. 相似原则。3. 连续原则。4. 闭合原则。5. 对称原则。6. 共方向原则。

视觉有效编码

基本思想

人们一致认为，初级视皮层的视觉处理过程受环境统计特性的影响，但怎么在两者之间建立准确的数字连接一直是个难题。1954年，Attneave提出视觉感知的目标就是产生一个外部输入信号的有效表示。Barlow提出“有效编码假设”，认为初级视皮层神经细胞的主要功能就是去除输入刺激的统计相关性。若该假设成立，则神经系统可能通过两种方式体现这种有效编码特性：一是单个神经细胞响应的分布曲线，二是多个神经细胞间的统计独立性。

考察单个神经细胞对自然环境响应的分布状态时，为了检测是否最大化表达了输入信号信息，需要对神经细胞响应添一些限制条件。例如，假定神经细胞响应存在最大值，则响应满足平均分布时可使信息最大化。同样，神经细胞响应的最优分布紧密依赖响应约束条件。例如，选择约束条件为神经细胞响应的方差恒定，那么信息最大化的分布为高斯分布；如果选择约束条件是均值恒定，那么信息最大化的分布为指数分布。

考察一组神经细胞联合编码一个外部刺激模式，当每个神经细胞的响应满足统计独立条件，那么这组神经细胞的编码是最有效的。

生理机制

Baddeley等人的实验表明，在自然图像刺激下，某些细胞的发放率服从指数分布，这与单个神经细胞有效编码的准则一致，即在固定平均发放率的条件下，指数分布传送的信息最多。Nirenberg等研究表明，在冗余性测试和自然刺激条件下，一组视网膜神经节对外界刺激独立编码。

神经生理学研究表明，每个神经细胞都携带与统计无关的信息成分。在视网膜和侧膝状体神经元之间，在神经束的有限带宽条件下，视觉系统通过最优化信息传输来编码外部信息；然后V1区的神经细胞把传入的最优化刺激转换为稀疏编码，而且这些神经细胞表示着自然场景的独立信息成分。这种稀疏编码将促进对视觉系统高级视觉区域的理解，也能增加模式识别的有效性。

数学模型

对一组神经细胞而言，有效编码数学模型可以描述为：分解输入信号，形成一组独立的响应。假设将视觉输入分解为若干小的图像块，每个小图像块对应一个神经细胞的感受野，把它按列排列形成一个N维向量X。若X可以用N个基函数线性叠加而得到，这N个基函数构成了矩阵A的列，同时线性叠加时每个基函数对应的权值用向量S表示，S的每一个分量称为“因子”。图像的线性叠加可以表示为

X = AS

有效编码模型就是对图像X进行变换（线性或非线性），找到隐藏的“因子”S，并且使的S满足有效编码准则。简单的这个模型可表示为

S = F(WX)

上述模型可以分为两步：一是线性滤波，W的列向量对应一个个线性滤波器；二是进行非线性变换F，这个步骤是可选的。

随着输入信号维数增加，描述输入信号联合分布的复杂度会指数增长。因此，通常针对特定的统计特性，或者指定特定的分解算法来简化问题。常用的有效编码算法有3种：一是基于二阶统计量的线性去相关方法，二是基于高阶统计量的独立成分分析方法，三是基于高阶统计量的非线性分解方法。

1. 基于二阶统计的线性滤波器模型

最简单的约束就是考虑输入信号的二阶统计量（协方差、相关系数等），用线性分解进行建模。主成分分析（PCA）可以解决这个问题，它可消除各个数据维的相关性，特别是对于高斯分布的信号能够产生统计独立的分量。然而，自然图像服从非高斯分布，因此用PCA分解后得到的“因子”满足统计无关性，但不能达到统计独立的要求。同时，PCA方法所对应的基函数反映的是图像的全局空间频率，这种空间频率或者说二阶统计量不足以反映图像的空间局部信息，比如边界轮廓。

2. 基于高阶统计的线性滤波器模型

Field提出了稀疏编码或者信息熵最小化编码的方法，也就是对应于一个输入图像刺激，激活的神经细胞的个数尽可能少。通过对Gabor滤波器的参数进行最优化，发现这些优化参数产生的滤波器与视皮层中简单细胞的响应特性非常相似，它们具有位置选择性、方向选择性和频率选择性等特点。

Olshausen等用线性叠加的方法进一步研究简单细胞感受野性质与稀疏编码的关系，在最小均方差意义下使得线性叠加的结果尽可能的与原图像相似，同时使得表示特征尽可能稀疏化，或者说对应基函数权值为0的个数尽可能多。

3. 非线性模型

Schwartz等通过一个非线性变化，消除在线性编码结果的“因子”间的非线性相关性。首先调整每个基函数的响应值，典型的如平方运算，然后除以调整后的邻域神经细胞响应的加权和，得到新的响应值当作最后的神经细胞响应。这个非线性过程可以看作是一个两阶段组成的层次模型：原始图像像素点xi首先经过一个线性变化T，得到线性滤波系数ci，然后再对线性滤波系数进行非线性的变换R。这里的线性滤波器就是具有位置、方向和频率选择性的滤波器，非线性变化R是一种信息增益控制机制，通过在邻域线性滤波系数的能量加权和进行规范化每一个线性滤波系数。

结果表明，经过这种非线性变化的编码系数能显著提高相邻滤波器系数之间的统计独立性，而这种相邻滤波器响应系数之间的相关性是用线性变换无法消除的。

这种非线性处理过程在大脑皮层中随处可见，而且类似的“分散规范化”模型在解释神经细胞非线性行为时得到广泛的使用。这种非线性变化能很好地适应自然图像的非高斯统计特性，而且可以通过优化规范化过程中邻域的权值，使得神经细胞响应的统计独立性更大化。这种模型的编码结果与很多神经生理学数据具有惊人的一致性。

马儿视觉计算理论

人类视觉系统2个最显著的特点：一是选择性，指观察者的注意力总是有目的地指向他最感兴趣的事物。一般生物最注意的是环境中时常变化的事物，忽略固定不变的事物。二是整体性，指人类具有对图像数据进行组织归纳的能力，可在多个层次上发现图像数据的规则性、一致性、连续性等整体特性。实验证明，人类视觉系统具有在低层处理中获取图像拓扑特性的能力。

马儿理论完全不考虑视觉中的选择性和整体性，把初级视觉研究的目标确定为按照各种物理模型和附加约束条件，根据图像中各点灰度或其他测量结果，恢复景物中表面的有关特性。具体来说，马儿认为视觉是一个信息处理过程，这个过程根据外部世界的图像产生对观察者有用的描述。这些描述依次由许多不同但固定的、每个都记录了外界的某方面特征的表象（Representation）所构成或组合而成。他将视觉分为低、中、高3个层次：

1. 低层视觉处理，主要目的是分清哪些变化是由哪些因素引起的。大体来说这个过程要经过2个步骤：第一步是获得表示图像中变化和结构的表象，这种表象称为初始简图（Primal Sketch）。包括检测灰度的变化、表示和分析局部的几何结构、以及检测照明的效应等处理。第二步是对初始简图进行一系列运算得到能反应可见表面几何特征的表象，这种表象称为二维半（2.5D）简图或本征图像。这些运算中包括由立体视觉运算提取深度信息，根据灰度影调、纹理等信息恢复表面方向，由运动视觉运算获取表面形状和空间关系信息等。

选择图形的局部几何性质，如线段、平行性、相对位置和朝向作为视觉初始简图的基本信息，是由于哺乳动物大脑皮层存在简单细胞、复杂细胞所构成的感受线条和边界的特征检测器，以及大脑皮层功能柱能对来自视网膜、外侧膝状体的输入进行重新组合，分析刺激的线条、轮廓、方向、运动等空间特性。

2. 中层视觉处理，根据本征图像表示的信息把图像分成有明确含义的区域（分割），从而得到比线条、区域、形状等更为高层的描述。

3. 高层视觉处理，这个层次的表象是三维模型，它适用于物体的识别。这个层次要依靠和应用与领域有关的先验知识来构成对景物的描述。

拓扑视觉理论

1982年，陈霖原创性提出拓扑性质初期知觉的假说。一系列知觉实验表明，视图形知觉有一个功能层次，视觉系统不仅检测大范围的拓扑性质，而且较之局部几何性质视觉系统更敏感于大范围的拓扑性质，对由空间相邻关系决定的大范围拓扑性质的检测是发生在视觉时间过程的最初阶段。

2005年，陈霖在Visual Cognition第四期发表长达88页的“重大主体论文”，对拓扑视觉理论概括为：知觉组织的拓扑学研究基于一个核心思想和包括两个方面。核心思想是，知觉组织应该从变换和变换中的不变性知觉的角度来理解。两个方面，第一方面强调形状知觉中的拓扑结构，这就是，知觉组织的大范围性质能够用拓扑不变性来描述；第二个方面进一步强调早期拓扑性质知觉，这就是，拓扑性质知觉优先于局部特征性质的知觉。“优先”有两个严格的含义：第一，由拓扑性质决定的整体组织是知觉局部几何性质的基础；第二，基于物理连通性的拓扑性质知觉先于局部几何性质的知觉。

视觉的正则化理论

初级视觉有两个重要的问题，一是运动的计算，二是图像强度变化的检测，即物理边缘检测。对于运动计算，由于只能得到速度矢量的法向分量，切向分量是不可知的，因此估计整个速度场即视觉流计算本质上是不确定的。对于边缘检测，就是对图像数据进行数值微分，但是微分却放大了不可避免的图像噪声，因此这个过程本质上是不稳定的。

Poggi等提出，一个问题是适定的，如果它的解释存在的、唯一的，且连续地依赖于初始数据。视觉流计算之所以不是适定的，是因为从一条轮廓线上的法向速度分量恢复整个速度适量场这个“逆”问题不能满足唯一性条件；边缘检测即数值微分之所以不是适定的，则是因为解并不连续地依赖于数据。

求解不适定问题即恢复“适定性”的主要想法，是引入适当的先验知识来限制容许解的集合，这种方法称为正则化。常用2种正则化方法：一是变分正则化，主要指在某一变分原理下重新表述一个不适定问题的正则化方法，需要选择一个范数和一个起稳定作用的泛函。迄今在初级视觉中使用的大多数稳定性泛函都是Tikhonov型的，也就是期望解z的前P阶导数的线性组合。研究显示，一个线性的模拟网络（电的或化学的）乃是求解标准正则化理论所要求的变分原理的一条自然途径。二是在贝叶斯估计和马尔科夫随机场模型的基础上建立起来的，使用恰当的概率分布来表达先验知识。

基于模型的视觉理论

基于模型的视觉理论认为信息的概念与从一组候选对象中作出选择相联系。如果不知道一组可供选择的刺激或响应，人们就对刺激或响应无从说起。在感知中，选择是根据不变量（Constancies）和参数（Parameters）作出的。比如一个婴儿听觉系统的感知不变量只包括“安静”和“噪声”，那么任何音乐对他来说都包含一样多的信息。这种视觉理论利用特征检测器的概念作为把点状的图像数据与宏观信息相联系的桥梁。因此，基于模型的视觉理论体现了格式塔理论中的选择性和整体性。

该理论多采用基于模型的、自顶向下的、语义的和目标驱动的方法，代表性的有Shirai的语义边缘检测方法，Yakimosky的基于语义的区域分析方法，Tenenbaum的解释引导的分割方法等。但这些方法在高级语义知识如何与低级的聚集处理相衔接上遇到严重困难，不可避免地要引入一些过于简单的假设，因此并未取得预期成功。因此，视觉研究面临两难的境地：一方面认为没有关于图像是什么物体的先验知识，就难以达到完善的图像分割，也就难以理解图像；另一方面在应用先验知识引导低层处理进行图像分割时又遇到严重困难。

同步化响应

神经元群的同步振荡和同步化响应是继感受野和侧抑制概念之后的重要进展。Malsburg提出，神经元系综（Ensemble）应当用皮层神经元的同步发放来确定，而不应当用平均发放速率单纯的提高来确定，在这样的“相关模型”中，视象中知觉的相干性质通过响应的特征检测神经元的同步发放表现出来，与同一客体的特征相对应的神经元同步发放，而与不同客体相对应的神经元则以非相关的方式发放。本质上，这是时间相关假设，依赖于动态联结方式来实现，神经元由轻微地改变其发放模式的瞬态关系而得以在系综之间迅速转换。换句话说，神经元群通过时间编码形成对客体的同步化响应。

1990年，Schuster等人建立了视皮层的神经元振荡模型，其中传出突触既有兴奋性的也有抑制性的，在局域尺度上密集互联成模型神经网络，在更大范围内则是稀疏的。

【22】Anastasio T J. Modeling vestibule-ocalar reflex dynamic: From classical analysis to neural networks. 1993.

【86】Boahen K A. A retinomorphic vision system. 1996.

【739】Sterling P R. in The Synoptic Organization of the Brain. 3^rd edition, 1990.

posted @ 2022-12-17 17:59 koala999 阅读(758) 评论(0) 编辑收藏举报

刷新页面返回顶部

koala999