摘要:
特征点检测(Landmark detection) 假设你正在构建一个人脸识别应用,出于某种原因,你希望算法可以给出眼角的具体位置。 眼角坐标为(x,y) ,你可以让神经网络的最后一层多输出两个数字${l_x}$,${l_y}$,作为眼角的坐标值。如果你想知道两只眼睛的四个眼角的具体位置,那么从左到 阅读全文
摘要:
目标定位( Object localization) 图片分类任务就是算法遍历图片,判断其中的对象是不是某个指定的类别,这就是图片分类。 定位分类问题。意味着我们不仅要用算法判断图片中是不是一辆汽车,还要在图片中标记出它的位置,用边框或红色方框把汽车圈起来。“定位”的意思是判断汽车在图片中的具体位置 阅读全文
摘要:
计算机视觉现状( The state of computer vision) 图像识别其实是如何看图片的问题,并且告诉你这张图是不是猫,而对象检测则是看一幅图,你画一个框,告诉你图片里的物体,比如汽车等等。因为获取边框的成本比标记对象的成本更高,所以我们进行对象检测的数据往往比图像识别数据要少。 当 阅读全文
摘要:
数据扩充(Data augmentation) 大部分的计算机视觉任务使用很多的数据,所以数据扩充是经常使用的一种技巧来提高计算机视觉系统的表现。在实践中,更多的数据对大多数计算机视觉任务都有所帮助,不像其他领域,有时候得到充足的数据,但是效果并不怎么样。但是,当下在计算机视觉方面,计算机视觉的主要 阅读全文
摘要:
迁移学习(Transfer Learning) 如果你要做一个计算机视觉的应用,相比于从头训练权重,或者说从随机初始化权重开始,如果你下载别人已经训练好网络结构的权重,你通常能够进展的相当快,用这个作为预训练,然后转换到你感兴趣的任务上。 举个例子,假如说你要建立一个猫咪检测器,用来检测你自己的宠物 阅读全文
摘要:
Inception 网络( Inception network) 这是一个28×28×192 的输入,先通过一个 1×1的层,再通过一个 5×5 的层, 1×1 的层可能有 16 个通道,而 5×5 的层输出为 28×28×32,共32 个通道。 也可以过一个3×3 的卷积层,这样的话 3×3 的层 阅读全文