上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 27 下一页
摘要: 什么是深度卷积网络 ? (What are deep ConvNets learning?) 假如你训练了一个卷积神经网络,是一个 Alexnet,轻量级网络,你希望将看到不同层之间隐藏单元的计算结果。 从第一层的隐藏单元开始,假设你遍历了训练集,然后找到那些使得单元激活最大化的一些图片,或者是图片 阅读全文
posted @ 2018-11-10 15:18 刘-皇叔 阅读(1839) 评论(0) 推荐(0) 编辑
摘要: 什么是神经风格转换?( What is neural style transfer?) 使用 C来表示内容图像 ,S表示风格图像 ,G表示表示生成的图像。 第一幅图像C是斯坦福大学,S是梵高的星空,G是最终生成的图像。第一幅图像C是旧金山的金门大桥,S是毕加索的画,G是最终生成的图像。为了实现神经风 阅读全文
posted @ 2018-11-10 14:41 刘-皇叔 阅读(566) 评论(0) 推荐(0) 编辑
摘要: 面部验证与二分类 (Face verification and binary classification) 另一个训练神经网络的方法是选取一对神经网络,选取 Siamese 网络,使其同时计算这些嵌入,比如说 128 维的嵌入,或者更高维,然后将其输入到逻辑回归单元,然后进行预测,如果是相同的人, 阅读全文
posted @ 2018-11-10 14:33 刘-皇叔 阅读(625) 评论(0) 推荐(0) 编辑
摘要: Triplet 损失 要想通过学习神经网络的参数来得到优质的人脸图片编码,方法之一就是定义三元组损失函数然后应用梯度下降。 为了应用三元组损失函数,你需要比较成对的图像,比如这个图片,为了学习网络的参数,你需要同时看几幅图片,对于前两张图片,你想要它们的编码相似,因为这是同一个人,对于后两张图片,你 阅读全文
posted @ 2018-11-10 11:36 刘-皇叔 阅读(3666) 评论(0) 推荐(3) 编辑
摘要: Siamese 网络( Siamese network) 你经常看到这样的卷积网络,输入图片${x^{(1)}}$ ,然后通过一些列卷积,池化和全连接层,最终得到这样的特征向量,有时这个会被送进 softmax 单元来做分类,但是在这里不这样做,我们关注的是最终输出的向量,假设它是128维,它是由网 阅读全文
posted @ 2018-11-10 09:25 刘-皇叔 阅读(439) 评论(0) 推荐(0) 编辑
摘要: One-Shot 学习( One-shot learning) 人脸识别所面临的一个挑战就是你需要解决一次学习问题,这意味着在大多数人脸识别应用中,你需要通过单单一张图片或者单单一个人脸样例就能去识别这个人。所以在一次学习问题中,只能通过一个样本进行学习,以能够认出同一个人。大多数人脸识别系统都需要 阅读全文
posted @ 2018-11-10 09:04 刘-皇叔 阅读(1987) 评论(0) 推荐(1) 编辑
摘要: 候选区域( Region proposals (Optional)) 滑动窗法方法使用训练过的分类器,在这些窗口中全部运行一遍,然后运行一个检测器,看看里面是否有车辆,行人和摩托车。现在你也可以运行一下卷积算法,这个算法的其中一个缺点是,它在显然没有任何对象的区域浪费时间。 编号1,2的区域显然没有 阅读全文
posted @ 2018-11-10 08:47 刘-皇叔 阅读(914) 评论(0) 推荐(0) 编辑
摘要: YOLO 算法(Putting it together: YOLO algorithm) 假设你要训练一个算法去检测三种对象,行人、汽车和摩托车,你还需要显式指定完整的背景类别。这里有 3 个类别标签,如果你要用两个 anchorbox,那么输出y就是 3×3×2×8,其中 3×3 表示 3×3 个 阅读全文
posted @ 2018-11-10 08:44 刘-皇叔 阅读(542) 评论(0) 推荐(0) 编辑
摘要: Anchor Boxes 假设你有这样一张图片,对于这个例子,我们继续使用 3×3 网格,注意行人的中点和汽车的中点几乎在同一个地方,两者都落入到同一个格子中。所以对于那个格子,如果y输出这个向量: 你可以检测这三个类别,行人、汽车和摩托车,它将无法输出检测结果,所以我必须从两个检测结果中选一个。 阅读全文
posted @ 2018-11-10 08:41 刘-皇叔 阅读(2166) 评论(0) 推荐(1) 编辑
摘要: 非极大值抑制(Non-max suppression) 假设你需要在这张图片里检测行人和汽车,你可能会在上面放个 19×19 网格,理论上这辆车只有一个中点,所以它应该只被分配到一个格子里,左边的车子也只有一个中点,所以理论上应该只有一个格子做出有车的预测。 实践中当你运行对象分类和定位算法时,对于 阅读全文
posted @ 2018-11-08 22:51 刘-皇叔 阅读(443) 评论(0) 推荐(0) 编辑
摘要: 交并比(Intersection over union) 交并比(loU)函数做的是计算两个边界框交集和并集之比。两个边界框的并集是这个区域,就是属于包含两个边界框区域(绿色阴影表示区域),而交集就是这个比较小的区域(橙色阴影表示区域),那么交并比就是交集的大小,这个橙色阴影面积,然后除以绿色阴影的 阅读全文
posted @ 2018-11-08 21:10 刘-皇叔 阅读(3246) 评论(0) 推荐(0) 编辑
摘要: Bounding Box 预测(Bounding box predictions) 滑动窗口法的卷积实现虽然效率更高,但仍然存在问题,不能输出最精准的边界框。 在滑动窗口法中,你取这些离散的位置集合,然后在它们上运行分类器,在这种情况下,这些边界框没有一个能完美匹配汽车位置。 其中一个能得到更精准边 阅读全文
posted @ 2018-11-08 19:54 刘-皇叔 阅读(991) 评论(0) 推荐(0) 编辑
摘要: 卷积的滑动窗口实现(Convolutional implementation of sliding windows) 假设对象检测算法输入一个 14×14×3 的图像,图像很小。在这里过滤器大小为 5×5,数量是 16, 14×14×3 的图像在过滤器处理之后映射为 10×10×16。然后通过参数为 阅读全文
posted @ 2018-11-08 19:48 刘-皇叔 阅读(4438) 评论(0) 推荐(0) 编辑
摘要: 目标检测(Object detection) 假如你想构建一个汽车检测算法,步骤是,首先创建一个标签训练集,也就是x和y表示,你一开始可以使用适当剪切的图片,就是整张图片x几乎都被汽车占据,你可以照张照片,然后剪切,剪掉汽车以外的部分,使汽车居于中间位置,并基本占据整张图片。 有了这个标签训练集,你 阅读全文
posted @ 2018-11-08 19:44 刘-皇叔 阅读(509) 评论(0) 推荐(1) 编辑
摘要: 特征点检测(Landmark detection) 假设你正在构建一个人脸识别应用,出于某种原因,你希望算法可以给出眼角的具体位置。 眼角坐标为(x,y) ,你可以让神经网络的最后一层多输出两个数字${l_x}$,${l_y}$,作为眼角的坐标值。如果你想知道两只眼睛的四个眼角的具体位置,那么从左到 阅读全文
posted @ 2018-11-07 22:05 刘-皇叔 阅读(458) 评论(0) 推荐(0) 编辑
摘要: 目标定位( Object localization) 图片分类任务就是算法遍历图片,判断其中的对象是不是某个指定的类别,这就是图片分类。 定位分类问题。意味着我们不仅要用算法判断图片中是不是一辆汽车,还要在图片中标记出它的位置,用边框或红色方框把汽车圈起来。“定位”的意思是判断汽车在图片中的具体位置 阅读全文
posted @ 2018-11-07 21:11 刘-皇叔 阅读(1328) 评论(0) 推荐(0) 编辑
摘要: 计算机视觉现状( The state of computer vision) 图像识别其实是如何看图片的问题,并且告诉你这张图是不是猫,而对象检测则是看一幅图,你画一个框,告诉你图片里的物体,比如汽车等等。因为获取边框的成本比标记对象的成本更高,所以我们进行对象检测的数据往往比图像识别数据要少。 当 阅读全文
posted @ 2018-11-07 21:03 刘-皇叔 阅读(553) 评论(0) 推荐(0) 编辑
摘要: 数据扩充(Data augmentation) 大部分的计算机视觉任务使用很多的数据,所以数据扩充是经常使用的一种技巧来提高计算机视觉系统的表现。在实践中,更多的数据对大多数计算机视觉任务都有所帮助,不像其他领域,有时候得到充足的数据,但是效果并不怎么样。但是,当下在计算机视觉方面,计算机视觉的主要 阅读全文
posted @ 2018-11-07 20:37 刘-皇叔 阅读(675) 评论(0) 推荐(0) 编辑
摘要: 迁移学习(Transfer Learning) 如果你要做一个计算机视觉的应用,相比于从头训练权重,或者说从随机初始化权重开始,如果你下载别人已经训练好网络结构的权重,你通常能够进展的相当快,用这个作为预训练,然后转换到你感兴趣的任务上。 举个例子,假如说你要建立一个猫咪检测器,用来检测你自己的宠物 阅读全文
posted @ 2018-11-07 20:34 刘-皇叔 阅读(342) 评论(0) 推荐(0) 编辑
摘要: Inception 网络( Inception network) 这是一个28×28×192 的输入,先通过一个 1×1的层,再通过一个 5×5 的层, 1×1 的层可能有 16 个通道,而 5×5 的层输出为 28×28×32,共32 个通道。 也可以过一个3×3 的卷积层,这样的话 3×3 的层 阅读全文
posted @ 2018-11-07 20:30 刘-皇叔 阅读(435) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 27 下一页