公告

斯坦福CS231n笔记（一）：Introduction

CS231n课程界面：

第一讲：

现状：
现在处于信息爆炸时期，需要依赖计算机视觉完成对照片的标签和分类，人工无法完成。
现在的挑战：massive data，challenge of such “dark matter"（视频、音频资料称为Dark matter of Internet）

1.1 A brief history of computer vision

计算机之前的历史：
①5.4亿年前，物种大爆发的一个解释是因为进化出了眼睛
②文艺复兴：照相机
③Hubel&Wiesel实验：生物的大脑是如何处理视觉信息的？
基础视觉区：简单的形状结构处理，边缘决定了形状

现代计算机视觉：
① 现代计算机视觉的先驱：LARY ROBERTS论文”block world"，解析图片的边缘
② 现代计算机视觉诞生的时间：1966年夏季，MIT AI LAB成立并决定开始处理计算机视觉的问题。
Stanford AI lab建立者：John McCarthy，提出AI这个单词
③ David Marr从神经科学领域给了我们继Hubel&Wiesel之后的第二个领悟：视觉是分层的
现在的深度学习架构的基石：
Hubel&Wiesel实验：从简单的形状开始（边缘）
David Marr：建立分层的模型（input image——edge image——2.5D sketch（处理遮挡问题）——3D model），这是一个概念性的指导思想，我们称之为“representation”

④ 80年代涌现第一批视觉识别算法：
Tomas Binford和Brook（Stanford）提出“generalized Cylinder”模型：世界由简单形状组成，实体都是形状的组合（从不同角度观察）
斯坦福研究院SRI提出Pictorial Structure：专注于概率模型方面，也认为物体由简单形状组成，各部分之间由“弹簧“连接，允许有一定变形———》多样性
David Lowe论文：边缘&边缘组成的简单形状来识别物体

⑤ 90年代，开始着手处理彩色画面
重要成果一：不是识别图片物体，而是将图片分割成有意义的几部分，称之为”感知分组“，感知分组是视觉领域最重要的问题之一。
（在这节课中会发现这个简单问题并没有彻底解决，still finding the final solution。）
这个成果是“normalized cut”，第一次使用现实世界的图片试图解决非常核心的问题。by Malik，伯克利教授，1997。

重要成果二：Viola Jones Face Detector（论文：实时面孔检测） ——>后被富士引用制造第一台具有人脸检测功能的数码相机，是第一个用到大众消费产品上的高级视觉算法产品。代表了计算机视觉领域研究焦点的一次变迁（从给3D建模转到了识别领域）
计算机视觉领域最重要的问题：识别问题和AI

重要成果三：features。follow PASCAL的成果，建立了超大规模的项目：ImageNet。在这个课程中要export一部分做作业。ImageNet有5000w张图片，all clean by hand，label了2w+分类。使用Amazon Mechanic Turk平台完成。ImageNet Competition for Object Recognition：对1000 object classes（接近150张图片），比较各种算法的性能，计算机视觉的奥林匹克比赛。2012年挑战赛冠军：CNN，该算法源于七八十年代
————>beginning of deep learning revolution and the promise of this class

1.2 CS231n overview
CS231n focuses on one of the most important problems of visual recognition - image classification.
这节课关注的问题：
① 图像分类：关注大图整体
② object detection： where things exactly are?
③ image captioning，图片描述:
这堂课需要学习这些问题的细微差别和细节

Convolutional Neural Network(CNN)只是深度学习架构的一种。2012年,Alex Krizhesky和导师Geoff Hinton提出CNN（7层结构的）。在这之前一直是特征+SVM的分层结构，没有端到端学习的风格特色。2015年，151层CNN模型，by MSAR，称为深度残差网络。
Kunnihiko Fukushima，日本计算机科学家提出了模型Neocogitron，神经网络架构的开端。Yann Lecun在AT&T的Bell Lab工作，尝试识别手写，从家简单边缘开始，在每一层网络对图片过滤，再放到一起池化、滤波、池化。。。建立这个结构。2012年,Alex Krizhesky和导师Geoff Hinton用了近乎一样的结构参加了比赛。

计算机视觉智能比物体识别更任重而道远（visual intelligence goes far beyond object recognition...）。

除了imagenet，仍有很多问题很有趣：对整个照片标记、感知分组、识别和3D整合、motion和场景、物体间关系等等

计算机视觉的愿景1：看图讲故事
                            2:   图片细节，理解力

posted on 2018-02-15 16:08 xbamboo 阅读(313) 评论(0) 收藏举报

刷新页面返回顶部