计算机视觉

计算机视觉是一个跨学科的科学领域，涉及如何制作计算机以从数字图像或视频中获得高层次的理解。从工程的角度来看，它寻求自动化人类视觉系统可以完成的任务。^[1]^[2]^[3]

计算机视觉任务包括用于获取，处理，分析和理解数字图像的方法，以及从现实世界中提取高维数据以便例如以决策的形式产生数字或符号信息。^[4]^[5]^[6]^[7]在这种情况下理解意味着将视觉图像（视网膜的输入）转换为可以与其他思维过程交互并引出适当行动的世界描述。这种图像理解可以看作是利用几何学，物理学，统计学和学习理论构建的模型从图像数据中解开符号信息。^[8]

作为一门科学学科，计算机视觉关注从图像中提取信息的人工系统背后的理论。图像数据可以采用多种形式，例如视频序列，来自多个相机的视图或来自医学扫描仪的多维数据。作为一门技术学科，计算机视觉试图将其理论和模型应用于计算机视觉系统的构建。

计算机视觉的子域包括场景重建，事件检测，视频跟踪，对象识别，3D姿态估计，学习，索引，运动估计和图像恢复。^[6]

定义[ 编辑]

计算机视觉是一个跨学科领域，涉及如何使计算机从数字图像或视频中获得高层次的理解。从工程的角度来看，它寻求自动化人类视觉系统可以完成的任务。^[1]^[2]^[3] “计算机视觉涉及从单个图像或一系列图像中自动提取，分析和理解有用信息。它涉及开发理论和算法基础以实现自动视觉理解“。^[9]作为一门科学学科计算机视觉关注从图像中提取信息的人工系统背后的理论。图像数据可以采用多种形式，例如视频序列，来自多个相机的视图或来自医学扫描仪的多维数据。^[10]作为一门技术学科，计算机视觉旨在将其理论和模型应程序代写接单群733065427用于计算机视觉系统的构建。

历史[ 编辑]

在20世纪60年代后期，计算机视觉开始于开创人工智能的大学。它旨在模仿人类视觉系统，作为赋予机器人智能行为的垫脚石。^[11] 1966年，人们相信这可以通过一个夏季项目，通过将相机连接到计算机并让它“描述它看到的东西”来实现。^[12]^[13]

当时计算机视觉与数字图像处理的普遍领域的区别在于希望从图像中提取三维结构，以实现对场景的全面理解。20世纪70年代的研究形成了当今许多计算机视觉算法的早期基础，包括从图像中提取边缘，标记线条，非多面体和多面体建模，将对象表示为较小结构的互连，光流和运动估计。^[11]

在接下来的十年中，研究基于更严格的数学分析和计算机视觉的定量方面。这些包括尺度空间的概念，来自各种线索的形状推断，例如阴影，纹理和焦点，以及被称为蛇的轮廓模型。研究人员还意识到，许多这些数学概念可以在与正则化和马尔可夫随机场相同的优化框架内进行处理。^[14] 到20世纪90年代，以前的一些研究课题比其他研究课题更加活跃。研究射影 3 d重建导致更好地了解相机校准。随着摄像机校准优化方法的出现，人们意识到摄影测量领域的束调整理论已经探索了很多想法。这导致了用于来自多个图像的场景的稀疏3-D重建的方法。在密集立体对应问题和进一步的多视图立体声技术方面取得了进展。同时，使用图形切割的变化来解决图像分割。这十年也是第一次在实践中使用统计学习技术来识别图像中的面部（参见Eigenface）。在20世纪90年代末期，随着计算机图形学和计算机视觉领域之间相互作用的增加，出现了重大变化。这包括基于图像的渲染，图像变形，视图插值，全景图像拼接和早期光场渲染。^[11]

最近的工作已经看到基于特征的方法的复兴，与机器学习技术和复杂的优化框架结合使用。^[15]^[16]

应用[ 编辑]

应用范围包括工业机器视觉等任务例如，检查生产线上加速的瓶子，研究可以理解周围世界的人工智能和计算机或机器人。计算机视觉和机器视觉领域具有显着的重叠。计算机视觉涵盖了许多领域中使用的自动图像分析的核心技术。机器视觉通常是指将自动图像分析与其他方法和技术相结合的过程，以在工业应用中提供自动检查和机器人引导。在许多计算机视觉应用中，计算机被预编程以解决特定任务，但是基于学习的方法现在变得越来越普遍。计算机视觉应用的示例包括用于以下的系统：

学习3D形状一直是计算机视觉中的一项挑战性任务。深度学习的最新进展使研究人员能够构建能够无缝且高效地从单视图或多视图深度图或轮廓生成和重建3D形状的模型^[20]

自动检查，例如在制造应用中;
协助人类进行识别任务，例如物种识别系统; ^[23]
控制方法中，例如，一个工业机器人 ;
检测的事件，例如，用于视觉监控或人数统计 ;
交互，例如，作为计算机与人类交互的设备的输入;
建模对象或环境，例如医学图像分析或地形建模;
例如，通过自主车辆或移动机器人进行导航; 和
组织信息，例如，用于索引图像和图像序列的数据库。

DARPA的视觉媒体推理概念视频

最突出的应用领域之一是医学计算机视觉或医学图像处理，其特征在于从图像数据中提取信息以诊断患者。这方面的一个例子是检测肿瘤，动脉硬化或其他恶性变化; 器官尺寸，血流量等的测量是另一个例子。它还通过提供新信息支持医学研究：例如，关于大脑结构或医学治疗质量。计算机视觉在医学领域中的应用还包括增强由人 - 超声图像或例如X射线图像解释的图像 - 以减少噪声的影响。

计算机视觉中的第二个应用领域是工业领域，有时称为机器视觉，其中提取信息是为了支持制造过程。一个例子是质量控制，其中自动检查细节或最终产品以发现缺陷。另一个例子是测量由机器人手臂拾取的细节的位置和方向。机器视觉也在农业过程中大量使用，以从散装材料中去除不需要的食物，这一过程称为光学分选。^[24]

军事应用可能是计算机视觉领域最大的领域之一。显而易见的例子是检测敌方士兵或车辆以及导弹制导。更先进的导弹制导系统将导弹发送到一个区域而不是特定目标，并且当导弹基于本地获取的图像数据到达该区域时进行目标选择。现代军事概念，例如“战场意识”，意味着包括图像传感器在内的各种传感器提供了关于战斗场景的丰富信息，可用于支持战略决策。在这种情况下，数据的自动处理用于降低复杂性并融合来自多个传感器的信息以提高可靠性。

艺术家的火星探测车的概念，一个无人驾驶的陆基车辆的例子。请注意安装在流动站顶部的立体摄像机。

其中一个较新的应用领域是自动驾驶汽车，包括潜水器，陆基车辆（带轮子，汽车或卡车的小型机器人），飞行器和无人驾驶飞行器（UAV）。自治水平从完全自主（无人驾驶）车辆到基于计算机视觉的系统在各种情况下支持驾驶员或飞行员的车辆。完全自动驾驶的车辆通常使用计算机视觉进行导航，例如用于知道它的位置，或用于产生其环境地图（SLAM）和用于检测障碍物。它还可以用于检测某些任务特定事件，例如，寻找森林火灾的无人机。支撑系统的示例是汽车中的障碍物警告系统和用于飞机自动着陆的系统。一些汽车制造商已经展示了用于汽车自动驾驶的系统，但是这种技术还没有达到可以投放市场的水平。军用自动驾驶汽车有很多例子，从先进导弹到无人机，用于侦察任务或导弹制导。使用计算机视觉的自动驾驶车辆已经进行了太空探索，例如 NASA的Mars Exploration Rover和ESA的ExoMars Rover。

其他应用领域包括：

支持视觉效果制作的电影和广播，例如，摄像头跟踪（运动匹配）。
监视。
跟踪和计算生物科学中的生物^[25]

典型任务[ 编辑]

上述每个应用领域都采用一系列计算机视觉任务; 或多或少明确定义的测量问题或处理问题，可以使用各种方法解决。下面介绍典型计算机视觉任务的一些示例。

识别[ 编辑]

计算机视觉，图像处理和机器视觉中的经典问题是确定图像数据是否包含某些特定对象，特征或活动。文献中描述了识别问题的不同变种：^{[ 需要引证 ]}

对象识别（也称为对象分类） - 可以识别一个或多个预先指定或学习的对象或对象类，通常与它们在图像中的2D位置或场景中的3D姿势一起识别。Blippar， Google Goggles和LikeThat提供了说明此功能的独立程序。
标识 - 识别对象的单个实例。示例包括识别特定人的面部或指纹，识别手写数字或识别特定车辆。
检测 - 扫描图像数据以查找特定条件。实例包括在医学图像中检测可能的异常细胞或组织或在自动道路收费系统中检测车辆。基于相对简单和快速计算的检测有时用于寻找感兴趣的图像数据的较小区域，其可以通过计算要求更高的技术进一步分析以产生正确的解释。

目前，用于此类任务的最佳算法基于卷积神经网络。ImageNet大规模视觉识别挑战展示了它们的功能; 这是对象分类和检测的基准，具有数百万个图像和数百个对象类。在ImageNet测试中，卷积神经网络的性能现在接近于人类的性能。^[26]最好的算法仍然在与小或薄的物体作斗争，例如花茎上的小蚂蚁或手上拿着羽毛笔的人。对于使用滤镜失真的图像，它们也有问题（现代数码相机越来越常见）。相比之下，这些图像很少会给人类带来麻烦。然而，人类往往在遇到其他问题时遇到麻烦。例如，他们不善于将对象分类为细粒度类，例如特定品种的狗或鸟类，而卷积神经网络可以轻松处理。

存在一些基于识别的专门任务，例如：

基于内容的图像检索 - 在具有特定内容的更大图像集中查找所有图像。内容可以以不同的方式指定，例如，相对于目标图像的相似性（给我所有类似于图像X的图像），或者作为文本输入给出的高级搜索条件（给我包含的所有图像）许多房屋，在冬季采取，并没有汽车）。

在公共场所，商场，购物中心为人们提供反击的计算机视觉

姿态估计 - 估计特定对象相对于摄像机的位置或方向。该技术的示例应用将是帮助机器人臂在装配线情况下从传送带取回物体或从箱中拾取零件。
光学字符识别（OCR） -识别字符在印刷或手写文本的图像，通常以编码更适合于编辑或格式的文本索引（例如 ASCII）。
二维码读取 - 读取二维码，如数据矩阵和二维码。
面部识别
人体计数系统中的形状识别技术（SRT）将人类（头部和肩部模式）与物体区分开来

运动分析[ 编辑]

若干任务涉及运动估计，其中处理图像序列以在图像中或3D场景中的每个点处或甚至产生图像的相机处产生速度的估计。此类任务的示例如下：

Egomotion - 根据摄像机产生的图像序列确定摄像机的3D刚性运动（旋转和平移）。
跟踪 -跟踪图像序列中（通常）较小的一组兴趣点或对象（例如，车辆，人类或其他生物^[25]）的移动。
光流 - 为图像中的每个点确定该点相对于图像平面的移动方式，即其视运动。该运动是相应的3D点在场景中移动的方式以及相机相对于场景的移动方式的结果。

场景重建[ 编辑]

给定场景或视频的一个或（通常）更多图像，场景重建旨在计算场景的3D模型。在最简单的情况下，模型可以是一组3D点。更复杂的方法可生成完整的3D表面模型。不需要运动或扫描的3D成像以及相关处理算法的出现使得该领域的快速发展成为可能。基于网格的3D感测可用于从多个角度获取3D图像。现在可以使用算法将多个3D图像拼接成点云和3D模型。^[20]

图像恢复[ 编辑]

图像恢复的目的是从图像中去除噪声（传感器噪声，运动模糊等）。最简单的噪声消除方法是各种类型的滤波器，例如低通滤波器或中值滤波器。更复杂的方法假定了局部图像结构的外观模型，以区别于噪声。通过首先根据局部图像结构（例如线或边缘）分析图像数据，然后基于来自分析步骤的局部信息控制滤波，与较简单的方法相比，通常获得更好的噪声去除水平。

该领域的一个例子是修复。

系统方法[ 编辑]

计算机视觉系统的组织高度依赖于应用程序。有些系统是解决特定测量或检测问题的独立应用程序，而其他系统则构成较大设计的子系统，例如，还包含用于控制机械执行器，计划，信息数据库，人员的子系统。计算机视觉系统的具体实现还取决于其功能是否是预先指定的，或者是否可以在操作期间学习或修改其某些部分。许多功能对于应用程序是唯一的。然而，在许多计算机视觉系统中存在典型的功能。

图像采集 - 数字图像由一个或多个图像传感器产生，除了各种类型的光敏相机外，还包括距离传感器，层析成像设备，雷达，超声波相机等。根据传感器的类型，得到的图像数据是普通的2D图像，3D体积或图像序列。像素值通常对应于一个或多个光谱带（灰色图像或彩色图像）中的光强度，但也可以与各种物理测量相关，例如声波或电磁波的深度，吸收或反射，或核磁共振。^[24]
预处理 - 在将计算机视觉方法应用于图像数据以便提取某些特定信息之前，通常需要处理数据以确保其满足该方法所暗示的某些假设。例如：
- 重新采样以确保图像坐标系正确。
- 降噪以确保传感器噪音不会引入错误信息。
- 对比度增强以确保可以检测到相关信息。
- 缩放空间表示以在局部适当的比例下增强图像结构。
特征提取 - 从图像数据中提取各种复杂程度的图像特征。^[24]此类功能的典型示例如下：
- 线条，边缘和山脊。
- 角落，斑点或点等本地化兴趣点。

更复杂的特征可能与纹理，形状或运动有关。

检测/分割 - 在处理的某个时刻，决定图像的哪个图像点或区域与进一步处理相关。^[24]例子是：
- 选择一组特定的兴趣点。
- 包含特定感兴趣对象的一个或多个图像区域的分段。
- 将图像分割成嵌套的场景体系结构，包括前景，对象组，单个对象或显着对象部分（也称为空间 - 分类场景层次结构），^[27]而视觉显着性通常被实现为空间和时间关注。
- 将一个或多个视频分割或共分割成一系列每帧前景掩模，同时保持其时间语义连续性。^[28]^[29]
高级处理 - 在该步骤，输入通常是一小组数据，例如一组点或假定包含特定对象的图像区域。^[24]其余处理涉及，例如：
- 验证数据是否满足基于模型和特定于应用程序的假设。
- 估计特定于应用程序的参数，例如对象姿势或对象大小。
- 图像识别 - 将检测到的对象分类为不同的类别。
- 图像配准 - 比较和组合同一对象的两个不同视图。
决策作出申请所需的最终决定，^[24]例如：
- 自动检查应用程序通过/失败。
- 识别应用程序中的匹配/不匹配。
- 在医疗，军事，安全和识别应用中进一步进行人体审查的标志。

图像理解系统[ 编辑]

图像理解系统（IUS）包括如下三个抽象级别：低级别包括图像基元，例如边缘，纹理元素或区域; 中间层包括边界，表面和体积; 高级别包括对象，场景或事件。其中许多要求确实是进一步研究的主题。

在这些级别的IUS设计中的表征要求是：通过比较和区分来表示原型概念，概念组织，空间知识，时间知识，缩放和描述。

虽然推断是指从当前已知的事实中导出新的，未明确表示的事实的过程，但控制是指选择在特定处理阶段应该应用多种推理，搜索和匹配技术中的哪一种的过程。IUS的推理和控制要求是：搜索和假设激活，匹配和假设检验，期望的产生和使用，注意力的变化和关注，信念的确定性和强度，推理和目标满意度。^[30]

硬件[ 编辑]

计算机视觉系统有很多种; 然而，它们都包含这些基本元素：电源，至少一个图像采集设备（摄像机，ccd等），处理器，控制和通信电缆或某种无线互连机制。此外，实用的视觉系统包含软件，以及显示器以监控系统。用于内部空间的视觉系统，如大多数工业空间，包含照明系统并且可以放置在受控环境中。此外，完整的系统包括许多附件，例如相机支架，电缆和连接器。

大多数计算机视觉系统使用可见光摄像机，以每秒最多60帧（通常更慢）的帧速率被动地观看场景。

一些计算机视觉系统使用具有主动照明或除可见光或两者之外的图像采集硬件，例如结构光3D扫描仪，热像仪，高光谱成像仪，雷达成像，激光雷达扫描仪，磁共振图像，侧扫声纳，合成孔径声纳等。这样的硬件捕捉的“图像”被然后通常使用用来处理可见光图像的相同计算机视觉算法处理。

传统的广播和消费者视频系统以每秒30帧的速度运行，而数字信号处理和消费者图形硬件的进步使得高速图像采集，处理和显示成为可能的数百到数量级的实时系统。每秒数千帧。对于机器人技术中的应用，快速实时视频系统至关重要，通常可以简化某些算法所需的处理。当与高速投影仪结合使用时，快速图像采集可实现3D测量和特征跟踪。^[31]

以自我为中心的视觉系统由可穿戴式摄像机组成，可自动从第一人称视角拍摄照片。

截至2016年，视觉处理单元正在成为一种新型处理器，以补充CPU和图形处理单元（GPU）。^[32]

posted on 2019-05-18 21:47 Vict0ry 阅读(1243) 评论(0) 收藏举报

刷新页面返回顶部