文章分类 - deeplearning.ai
发表于 2018-11-10 20:29阅读:450评论:0推荐:0
摘要:一维到三维推广( 1D and 3D generalizations of models) 2D 卷积 你可能会输入一个 14×14 的图像,并使用一个 5×5 的过滤器进行卷积,接下来你看到了 14×14 图像是如何与 5×5 的过滤器进行卷积的,通过这个操作你会得到 10×10 的输出。 如果你
阅读全文 »
发表于 2018-11-10 19:32阅读:735评论:0推荐:0
摘要:风格代价函数(Style cost function) 比如你有这样一张图片,现在你选择了某一层l,比如这一层去为图片的风格定义一个深度测量,现在我们要做的就是将图片的风格定义为l层中各个通道之间激活项的相关系数。 现在你将l层的激活项取出,这是个${n_H} \times {n_W} \times
阅读全文 »
发表于 2018-11-10 16:16阅读:384评论:0推荐:0
摘要:内容代价函数(Content cost function) 风格迁移网络的代价函数有一个内容代价部分,还有一个风格代价部分。 假如说,你用隐含层l来计算内容代价,如果l是个很小的数
阅读全文 »
发表于 2018-11-10 15:52阅读:404评论:0推荐:0
摘要:代价函数(Cost function) 要构建一个神经风格迁移系统,让我们为生成的图像定义一个代价函数,你接下看到的是,通过最小化代价函数,你可以生成你想要的任何图像。 给你一个内容图像C,给定一个风格图片S,而你的目标是生成一个新图片G。为了实现神经风格迁移,你要做的是定义一个关于G的代价函数J用
阅读全文 »
发表于 2018-11-10 15:18阅读:1843评论:0推荐:0
摘要:什么是深度卷积网络 ? (What are deep ConvNets learning?) 假如你训练了一个卷积神经网络,是一个 Alexnet,轻量级网络,你希望将看到不同层之间隐藏单元的计算结果。 从第一层的隐藏单元开始,假设你遍历了训练集,然后找到那些使得单元激活最大化的一些图片,或者是图片
阅读全文 »
发表于 2018-11-10 14:41阅读:568评论:0推荐:0
摘要:什么是神经风格转换?( What is neural style transfer?) 使用 C来表示内容图像 ,S表示风格图像 ,G表示表示生成的图像。 第一幅图像C是斯坦福大学,S是梵高的星空,G是最终生成的图像。第一幅图像C是旧金山的金门大桥,S是毕加索的画,G是最终生成的图像。为了实现神经风
阅读全文 »
发表于 2018-11-10 14:33阅读:627评论:0推荐:0
摘要:面部验证与二分类 (Face verification and binary classification) 另一个训练神经网络的方法是选取一对神经网络,选取 Siamese 网络,使其同时计算这些嵌入,比如说 128 维的嵌入,或者更高维,然后将其输入到逻辑回归单元,然后进行预测,如果是相同的人,
阅读全文 »
发表于 2018-11-10 11:36阅读:3679评论:0推荐:3
摘要:Triplet 损失 要想通过学习神经网络的参数来得到优质的人脸图片编码,方法之一就是定义三元组损失函数然后应用梯度下降。 为了应用三元组损失函数,你需要比较成对的图像,比如这个图片,为了学习网络的参数,你需要同时看几幅图片,对于前两张图片,你想要它们的编码相似,因为这是同一个人,对于后两张图片,你
阅读全文 »
发表于 2018-11-10 09:25阅读:444评论:0推荐:0
摘要:Siamese 网络( Siamese network) 你经常看到这样的卷积网络,输入图片 ,然后通过一些列卷积,池化和全连接层,最终得到这样的特征向量,有时这个会被送进 softmax 单元来做分类,但是在这里不这样做,我们关注的是最终输出的向量,假设它是128维,它是由网
阅读全文 »
发表于 2018-11-10 09:04阅读:1990评论:0推荐:1
摘要:One-Shot 学习( One-shot learning) 人脸识别所面临的一个挑战就是你需要解决一次学习问题,这意味着在大多数人脸识别应用中,你需要通过单单一张图片或者单单一个人脸样例就能去识别这个人。所以在一次学习问题中,只能通过一个样本进行学习,以能够认出同一个人。大多数人脸识别系统都需要
阅读全文 »
发表于 2018-11-10 08:47阅读:919评论:0推荐:0
摘要:候选区域( Region proposals (Optional)) 滑动窗法方法使用训练过的分类器,在这些窗口中全部运行一遍,然后运行一个检测器,看看里面是否有车辆,行人和摩托车。现在你也可以运行一下卷积算法,这个算法的其中一个缺点是,它在显然没有任何对象的区域浪费时间。 编号1,2的区域显然没有
阅读全文 »
发表于 2018-11-10 08:44阅读:545评论:0推荐:0
摘要:YOLO 算法(Putting it together: YOLO algorithm) 假设你要训练一个算法去检测三种对象,行人、汽车和摩托车,你还需要显式指定完整的背景类别。这里有 3 个类别标签,如果你要用两个 anchorbox,那么输出y就是 3×3×2×8,其中 3×3 表示 3×3 个
阅读全文 »
发表于 2018-11-10 08:41阅读:2171评论:0推荐:1
摘要:Anchor Boxes 假设你有这样一张图片,对于这个例子,我们继续使用 3×3 网格,注意行人的中点和汽车的中点几乎在同一个地方,两者都落入到同一个格子中。所以对于那个格子,如果y输出这个向量: 你可以检测这三个类别,行人、汽车和摩托车,它将无法输出检测结果,所以我必须从两个检测结果中选一个。
阅读全文 »
发表于 2018-11-08 22:51阅读:446评论:0推荐:0
摘要:非极大值抑制(Non-max suppression) 假设你需要在这张图片里检测行人和汽车,你可能会在上面放个 19×19 网格,理论上这辆车只有一个中点,所以它应该只被分配到一个格子里,左边的车子也只有一个中点,所以理论上应该只有一个格子做出有车的预测。 实践中当你运行对象分类和定位算法时,对于
阅读全文 »
发表于 2018-11-08 21:10阅读:3279评论:0推荐:0
摘要:交并比(Intersection over union) 交并比(loU)函数做的是计算两个边界框交集和并集之比。两个边界框的并集是这个区域,就是属于包含两个边界框区域(绿色阴影表示区域),而交集就是这个比较小的区域(橙色阴影表示区域),那么交并比就是交集的大小,这个橙色阴影面积,然后除以绿色阴影的
阅读全文 »
发表于 2018-11-08 19:54阅读:1002评论:0推荐:0
摘要:Bounding Box 预测(Bounding box predictions) 滑动窗口法的卷积实现虽然效率更高,但仍然存在问题,不能输出最精准的边界框。 在滑动窗口法中,你取这些离散的位置集合,然后在它们上运行分类器,在这种情况下,这些边界框没有一个能完美匹配汽车位置。 其中一个能得到更精准边
阅读全文 »
发表于 2018-11-08 19:48阅读:4459评论:0推荐:0
摘要:卷积的滑动窗口实现(Convolutional implementation of sliding windows) 假设对象检测算法输入一个 14×14×3 的图像,图像很小。在这里过滤器大小为 5×5,数量是 16, 14×14×3 的图像在过滤器处理之后映射为 10×10×16。然后通过参数为
阅读全文 »
发表于 2018-11-08 19:44阅读:511评论:0推荐:1
摘要:目标检测(Object detection) 假如你想构建一个汽车检测算法,步骤是,首先创建一个标签训练集,也就是x和y表示,你一开始可以使用适当剪切的图片,就是整张图片x几乎都被汽车占据,你可以照张照片,然后剪切,剪掉汽车以外的部分,使汽车居于中间位置,并基本占据整张图片。 有了这个标签训练集,你
阅读全文 »
发表于 2018-11-07 22:05阅读:467评论:0推荐:0
摘要:特征点检测(Landmark detection) 假设你正在构建一个人脸识别应用,出于某种原因,你希望算法可以给出眼角的具体位置。 眼角坐标为(x,y) ,你可以让神经网络的最后一层多输出两个数字,,作为眼角的坐标值。如果你想知道两只眼睛的四个眼角的具体位置,那么从左到
阅读全文 »
发表于 2018-11-07 21:11阅读:1345评论:0推荐:0
摘要:目标定位( Object localization) 图片分类任务就是算法遍历图片,判断其中的对象是不是某个指定的类别,这就是图片分类。 定位分类问题。意味着我们不仅要用算法判断图片中是不是一辆汽车,还要在图片中标记出它的位置,用边框或红色方框把汽车圈起来。“定位”的意思是判断汽车在图片中的具体位置
阅读全文 »