Computer Science - Computer Vision - Introduction

Computer Vision - Introduction

初探计算机视觉

CV在AI领域的地位

视觉相当于人脑的大门,是人类感知外界世界的最主要途径。该生理构造决定真实世界中的信息主要以视觉信息为主。所以,如果不能处理视觉信息的话,整个AI领域就几乎无法研究真实的世界。而作为AI领域中的子领域,CV就承担着处理视觉信息的任务。其地位不言而喻。

视觉,它相当于说芝麻开门。大门就在这里面,这个门打不开, 就没法研究真实世界的人工智能。

CV与ML的关系

CV是一个领域,下辖很多子问题,就像物理学。而ML基本是一个方法和工具,就像数学和统计学。所以,ML这种方法可以运用到CV这个领域中,二者并不是并列关系。

  • 机器学习中的 “机器”就是统计模型,“学习”就是用数据来拟合模型。 是由做计算机的人抢占了统计人的理论和方法,然后,应用到视觉、语音语言等 domains。
  • 学习搞来搞去,最丰富的数据是在视觉(图像和视频)。现在这次机器学习的一些大的动作和工程上的推广工作,还是从计算机视觉这边开始的。
  • 计算机视觉的发展太工程化、功利化了,逐步脱离了科学的范畴。这是短视和危险的。最近又受到机器学习来的冲击。

CV的三个源头

神经科学家:David Marr : 学科开创者

CV的三个层次 :表达、算法、实践
  • 表达:是什么问题?想要得到什么答案?

在表达的层次,我们问一下这是个什么问题呢?如何把它写成一个数学问题。任务是什么?输出是什么?这是独立于解决问题的方法的。

  • 算法:解决问题时使用什么算法?

对这个数学问题去求解时,可以选择不同的算法, 可以并行或者串行。

  • 实践:一个算法如何在硬件上实现?

一个算法如何在硬件上实现,可以用CPU,DSP, 或者神经网络来实现。

CV的分析体系 :整体的语义解释
  • 理清视觉到底要计算什么。Marr提出了一个系列的表达,从primal sketch(首要简约图), 到2 ½ D sketch(深度简约图), 到3D sketch。 这里面还包含了纹理、立体视觉、运动分析、表面形状、等等。比如说我要估计一个物体的深度和形状,我就估计它的光照,和物理材料特性;还有,三维几何形状怎么去表达? 他试图去建立一个完整的体系
  • 现在的视觉就基本上被很多人错误地看成一个分类问题,你给我一张图像,我说这个图像里有一只狗或者没有狗,狗在哪儿都不知道。头在哪?脚在哪?不知道。Marr框架是有秩序的,现在的秩序在做深度学习的人眼中还不存在,或者没有忙过来。各人做各人的分类问题,比如说有人算这个动物分类,有的人算这个家具的分类。各种分类以后,他们之间怎么样的关系呢?要对这个图像或者场景要产生一个整体的语义解释
CV的本质 :“计算”的过程
  • 我们以前用贝叶斯方法(以及现在的深度网络)认为视觉就是表达成为一个后验概率,寻求一个最优解。这个解就是图像的解释。这个求解过程就会终止。可是Marr说的这个事情,它不是单纯去求一个解,而是一个连续不断的计算过程。我给你一张图像,你越看、越琢磨,你可能看到的东西会越多。
  • 视觉是受任务驱动的。而任务是时刻在改变之中。……如果说人工智能往前发展机器人,要从机器人的角度来用视觉的话,那么它就有很多不同的任务。我现在做饭,我在打球,我在欣赏风景,这个时候我看到的东西是完全不一样的。我怎么样通过这千千万万的任务,而不是简单一个分类,来驱动我的计算的过程,来找到我的需求,来支持我目前的任务。……研究视觉要从一个agent(执行者)的角度,带着任务进来的这么一个人或机器人,主动地去激发视觉

计算机科学家:傅京孫(King-Sun Fu): 理论践行者

学科和学会的建设,工程师培养
  • 他和其他人于1973年组织了第一届国际模式识别会议(ICPR),并担任主席。会议后来演变成国际模式识别学会IAPR,在1976年成立,并被选为其主席。他重组了另外一个IEEE学会下面的模式识别委员会,并于1974年成为其第一任主席,创办了IEEE模式分析和机器智能(PAMI)会刊,并于1978年担任第一任总编。这是目前计算机视觉和相关领域最权威的一本期刊了。很多中国学生现在不知道,这个领域的老大本来是华人。目前, 国际模式识别学会IAPR设立了一个傅京孫奖, 作为终身成就奖, 是模式识别的最高荣誉。
  • 据说他的实验室是一个Chinatown。1978年中国打开国门,中国最早的一批中科院的计算机人员都到他那里进修,在普渡。所以他对中国计算机的发展,可以说是一个贡献非常巨大的人。
句法模式识别(Syntactic Pattern Recognition)

我们这个世界的模式, 一个最基本的组织原则是composition。一张图像就像语言、句子符合语法结构, 视频中的一个事件也有语法结构。寻找一个层次化、结构化的解释是计算视觉的核心问题。

Marr计算过程的表达 : 形式语言

语法结构对计算过程有了规范和表达的途路。……这个表达支撑了自底向上或自顶向下的计算的过程。

数学家:Ulf Grenander: 数学奠基者

模式分析的基础 : 数理模型

当你要去识别、分析一个模式,比如一个动物,人脸, 一个事件, 你首先要建立一个数理模型, 这个模型通过随机数据来拟合, 也就是当前的机器学习。

建模的理论和方法

一整套建模的理论和方法。把代数、几何、概率整合起来。

一些算法

很多蒙特卡洛算法都是他和这个学派的人提出来的。

Wiki - Computer Vision

Definition

  • Dealing with how computers can be made for gaining high-level understanding from digital images or videos
  • Seeking to automate tasks that human visual system can do

Typical Tasks

acquiring, processing, analyzing and understanding digital images
extraction of high-dimensional data from real world in order to produce numerical or symbolic information

Recogntion

  • Object recognition
  • Identification
  • Detection

Motion analysis

  • Egomotion : Understanding the motion of itself. The estimation of egomotion is important in autonomous robot navigation applications.
  • Tracking
  • Optical flow :the pattern of apparent motion of objects, surfaces and edges in a visual scene caused by the relative motion between an observer and a scene.

Scene reconstruction

Computing a 3D model of the scene by some images or videos

Image restoration

The aim is the removal of noise from images.

Applications

Recogntion

  • Content-based image retrieval
  • Pose estimation : estimating the position or orientation of an object
  • Optical character recogniton(OCR)
  • 2D Code reading : such as data matrix and QR codes
  • Facial recognition
  • Shape recognition technology(SRT) : like people counter system
posted @ 2018-02-13 17:22  Samaritan_z  阅读(324)  评论(0编辑  收藏  举报