xbamboo

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

CS231n课程界面:

第一讲:

现状:
现在处于信息爆炸时期,需要依赖计算机视觉完成对照片的标签和分类,人工无法完成。
现在的挑战:massive data,challenge of such “dark matter"(视频、音频资料称为Dark matter of Internet)

1.1 A brief history of computer vision

计算机之前的历史:
①5.4亿年前,物种大爆发的一个解释是因为进化出了眼睛
②文艺复兴:照相机
③Hubel&Wiesel实验:生物的大脑是如何处理视觉信息的?
基础视觉区:简单的形状结构处理,边缘决定了形状

现代计算机视觉:
① 现代计算机视觉的先驱:LARY ROBERTS论文”block world",解析图片的边缘
② 现代计算机视觉诞生的时间:1966年夏季,MIT AI LAB成立并决定开始处理计算机视觉的问题。
Stanford AI lab建立者:John McCarthy,提出AI这个单词
③ David Marr从神经科学领域给了我们继Hubel&Wiesel之后的第二个领悟:视觉是分层的
现在的深度学习架构的基石:
Hubel&Wiesel实验:从简单的形状开始(边缘)
David Marr:建立分层的模型(input image——edge image——2.5D sketch(处理遮挡问题)——3D model),这是一个概念性的指导思想,我们称之为“representation”

④ 80年代涌现第一批视觉识别算法:
Tomas Binford和Brook(Stanford)提出“generalized Cylinder”模型:世界由简单形状组成,实体都是形状的组合(从不同角度观察)
斯坦福研究院SRI提出Pictorial Structure:专注于概率模型方面,也认为物体由简单形状组成,各部分之间由“弹簧“连接,允许有一定变形———》多样性
David Lowe论文:边缘&边缘组成的简单形状来识别物体

⑤ 90年代,开始着手处理彩色画面
重要成果一:不是识别图片物体,而是将图片分割成有意义的几部分,称之为”感知分组“,感知分组是视觉领域最重要的问题之一。
(在这节课中会发现这个简单问题并没有彻底解决,still finding the final solution。)
这个成果是“normalized cut”,第一次使用现实世界的图片试图解决非常核心的问题。by Malik,伯克利教授,1997。

重要成果二:Viola Jones Face Detector(论文:实时面孔检测) ——>后被富士引用制造第一台具有人脸检测功能的数码相机,是第一个用到大众消费产品上的高级视觉算法产品。代表了计算机视觉领域研究焦点的一次变迁(从给3D建模转到了识别领域)
计算机视觉领域最重要的问题:识别问题和AI

重要成果三:features。follow PASCAL的成果,建立了超大规模的项目:ImageNet。在这个课程中要export一部分做作业。ImageNet有5000w张图片,all clean by hand,label了2w+分类。使用Amazon Mechanic Turk平台完成。ImageNet Competition for Object Recognition:对1000 object classes(接近150张图片),比较各种算法的性能,计算机视觉的奥林匹克比赛。2012年挑战赛冠军:CNN,该算法源于七八十年代
————>beginning of deep learning revolution and the promise of this class

1.2 CS231n overview
CS231n focuses on one of the most important problems of visual recognition - image classification.
这节课关注的问题:
① 图像分类:关注大图整体
② object detection: where things exactly are?
③ image captioning,图片描述:
这堂课需要学习这些问题的细微差别和细节

Convolutional Neural Network(CNN)只是深度学习架构的一种。2012年,Alex Krizhesky和导师Geoff Hinton提出CNN(7层结构的)。在这之前一直是特征+SVM的分层结构,没有端到端学习的风格特色。2015年,151层CNN模型,by MSAR,称为深度残差网络。
Kunnihiko Fukushima,日本计算机科学家提出了模型Neocogitron,神经网络架构的开端。Yann Lecun在AT&T的Bell Lab工作,尝试识别手写,从家简单边缘开始,在每一层网络对图片过滤,再放到一起池化、滤波、池化。。。建立这个结构。2012年,Alex Krizhesky和导师Geoff Hinton用了近乎一样的结构参加了比赛。

计算机视觉智能比物体识别更任重而道远(visual intelligence goes far beyond object recognition...)。

除了imagenet,仍有很多问题很有趣:对整个照片标记、感知分组、识别和3D整合、motion和场景、物体间关系等等

计算机视觉的愿景1:看图讲故事
                            2:   图片细节,理解力
posted on 2018-02-15 16:08  xbamboo  阅读(271)  评论(0编辑  收藏  举报