Computer Science - Computer Vision - Introduction
Computer Vision - Introduction
初探计算机视觉
CV在AI领域的地位
视觉相当于人脑的大门,是人类感知外界世界的最主要途径。该生理构造决定真实世界中的信息主要以视觉信息为主。所以,如果不能处理视觉信息的话,整个AI领域就几乎无法研究真实的世界。而作为AI领域中的子领域,CV就承担着处理视觉信息的任务。其地位不言而喻。
视觉,它相当于说芝麻开门。大门就在这里面,这个门打不开, 就没法研究真实世界的人工智能。
CV与ML的关系
CV是一个领域,下辖很多子问题,就像物理学。而ML基本是一个方法和工具,就像数学和统计学。所以,ML这种方法可以运用到CV这个领域中,二者并不是并列关系。
- 机器学习中的 “机器”就是统计模型,“学习”就是用数据来拟合模型。 是由做计算机的人抢占了统计人的理论和方法,然后,应用到视觉、语音语言等 domains。
- 学习搞来搞去,最丰富的数据是在视觉(图像和视频)。现在这次机器学习的一些大的动作和工程上的推广工作,还是从计算机视觉这边开始的。
- 计算机视觉的发展太工程化、功利化了,逐步脱离了科学的范畴。这是短视和危险的。最近又受到机器学习来的冲击。
CV的三个源头
神经科学家:David Marr : 学科开创者
CV的三个层次 :表达、算法、实践
- 表达:是什么问题?想要得到什么答案?
在表达的层次,我们问一下这是个什么问题呢?如何把它写成一个数学问题。任务是什么?输出是什么?这是独立于解决问题的方法的。
- 算法:解决问题时使用什么算法?
对这个数学问题去求解时,可以选择不同的算法, 可以并行或者串行。
- 实践:一个算法如何在硬件上实现?
一个算法如何在硬件上实现,可以用CPU,DSP, 或者神经网络来实现。
CV的分析体系 :整体的语义解释
- 理清视觉到底要计算什么。Marr提出了一个系列的表达,从primal sketch(首要简约图), 到2 ½ D sketch(深度简约图), 到3D sketch。 这里面还包含了纹理、立体视觉、运动分析、表面形状、等等。比如说我要估计一个物体的深度和形状,我就估计它的光照,和物理材料特性;还有,三维几何形状怎么去表达? 他试图去建立一个完整的体系。
- 现在的视觉就基本上被很多人错误地看成一个分类问题,你给我一张图像,我说这个图像里有一只狗或者没有狗,狗在哪儿都不知道。头在哪?脚在哪?不知道。Marr框架是有秩序的,现在的秩序在做深度学习的人眼中还不存在,或者没有忙过来。各人做各人的分类问题,比如说有人算这个动物分类,有的人算这个家具的分类。各种分类以后,他们之间怎么样的关系呢?要对这个图像或者场景要产生一个整体的语义解释。
CV的本质 :“计算”的过程
- 我们以前用贝叶斯方法(以及现在的深度网络)认为视觉就是表达成为一个后验概率,寻求一个最优解。这个解就是图像的解释。这个求解过程就会终止。可是Marr说的这个事情,它不是单纯去求一个解,而是一个连续不断的计算过程。我给你一张图像,你越看、越琢磨,你可能看到的东西会越多。
- 视觉是受任务驱动的。而任务是时刻在改变之中。……如果说人工智能往前发展机器人,要从机器人的角度来用视觉的话,那么它就有很多不同的任务。我现在做饭,我在打球,我在欣赏风景,这个时候我看到的东西是完全不一样的。我怎么样通过这千千万万的任务,而不是简单一个分类,来驱动我的计算的过程,来找到我的需求,来支持我目前的任务。……研究视觉要从一个agent(执行者)的角度,带着任务进来的这么一个人或机器人,主动地去激发视觉
计算机科学家:傅京孫(King-Sun Fu): 理论践行者
学科和学会的建设,工程师培养
- 他和其他人于1973年组织了第一届国际模式识别会议(ICPR),并担任主席。会议后来演变成国际模式识别学会IAPR,在1976年成立,并被选为其主席。他重组了另外一个IEEE学会下面的模式识别委员会,并于1974年成为其第一任主席,创办了IEEE模式分析和机器智能(PAMI)会刊,并于1978年担任第一任总编。这是目前计算机视觉和相关领域最权威的一本期刊了。很多中国学生现在不知道,这个领域的老大本来是华人。目前, 国际模式识别学会IAPR设立了一个傅京孫奖, 作为终身成就奖, 是模式识别的最高荣誉。
- 据说他的实验室是一个Chinatown。1978年中国打开国门,中国最早的一批中科院的计算机人员都到他那里进修,在普渡。所以他对中国计算机的发展,可以说是一个贡献非常巨大的人。
句法模式识别(Syntactic Pattern Recognition)
我们这个世界的模式, 一个最基本的组织原则是composition。一张图像就像语言、句子符合语法结构, 视频中的一个事件也有语法结构。寻找一个层次化、结构化的解释是计算视觉的核心问题。
Marr计算过程的表达 : 形式语言
语法结构对计算过程有了规范和表达的途路。……这个表达支撑了自底向上或自顶向下的计算的过程。
数学家:Ulf Grenander: 数学奠基者
模式分析的基础 : 数理模型
当你要去识别、分析一个模式,比如一个动物,人脸, 一个事件, 你首先要建立一个数理模型, 这个模型通过随机数据来拟合, 也就是当前的机器学习。
建模的理论和方法
一整套建模的理论和方法。把代数、几何、概率整合起来。
一些算法
很多蒙特卡洛算法都是他和这个学派的人提出来的。
Wiki - Computer Vision
Definition
- Dealing with how computers can be made for gaining high-level understanding from digital images or videos
- Seeking to automate tasks that human visual system can do
Typical Tasks
acquiring, processing, analyzing and understanding digital images
extraction of high-dimensional data from real world in order to produce numerical or symbolic information
Recogntion
- Object recognition
- Identification
- Detection
Motion analysis
- Egomotion : Understanding the motion of itself. The estimation of egomotion is important in autonomous robot navigation applications.
- Tracking
- Optical flow :the pattern of apparent motion of objects, surfaces and edges in a visual scene caused by the relative motion between an observer and a scene.
Scene reconstruction
Computing a 3D model of the scene by some images or videos
Image restoration
The aim is the removal of noise from images.
Applications
Recogntion
- Content-based image retrieval
- Pose estimation : estimating the position or orientation of an object
- Optical character recogniton(OCR)
- 2D Code reading : such as data matrix and QR codes
- Facial recognition
- Shape recognition technology(SRT) : like people counter system