摘要:
数学符号 假如你想要建立一个能够自动识别句中人名位置的序列模型,那么这就是一个命名实体识别问题,这常用于搜索引擎。在这个例子中,我们约定X<t>来索引输入序列中的位置,例如X<1>表示输入序列中的第一个词。输出也同理,下面的输出y用01来表示其对应的输入是否是人名的一部分。然后用Tx=9表示输入序列 阅读全文
摘要:
目标定位 图片分类已经很熟悉了,判断输入的图片是否是一只猫。目标检测还涉及到一个定位的事,它需要检测到图片中汽车的位置并标一个方框出来。目前现研究分类定位问题,通常只有一个较大的对象位于图片中间的位置,我们需要对它进行识别和定位。而在对象检测问题中,图片可以包含多个对象。图片分类→分类定位→目标检测 阅读全文
摘要:
为找到效果良好的神经网络,参考别人的网络是最好的方法。实际上,在计算机视觉任务中表现良好的神经网络框架往往也适用于其他任务。 经典网络: 残差网络 如图是两个全连接层,中间蓝色字体的写出的是正向传播的过程,注意这里吴恩达把计算z的那一步称为线性激活,a称为非线性激活,本质与以前学的一样。此时如果将第 阅读全文
摘要:
卷积就是通过用一个过滤器去和一个图像做卷积运算(对应像素相乘最后九个数值相加为一个数值,然后移动一个位置),然后得到一个新的图像,这里面能显示出原图像色彩变化的边缘。 边缘检测可以是纵向的横向的或者其他角度的(取决于过滤器的形态),过滤器一般为奇数,可以是3*3,5*5,7*7等,大多数时候使用3* 阅读全文
摘要:
假设你正在训练一个分类器模型,一段时间后其准确率达到了90%,之后你想再提高一点,但很有可能尝试了许许多多的办法努力了六个月之后,效果微乎其微。我们将学习一些分析方法,避免你南辕北辙。 正交化 建立机器学习系统的挑战之一是,有太多的超参数可以调整和尝试,而我们可以注意到高效的机器学习人员,都非常清楚 阅读全文
摘要:
调试处理 在所有参数中,学习率α是最重要的没有之一。其次是β、mini-batch的大小以及隐藏单元的数量。再其次是网络的层数、学习率衰减。如果使用Adam算法,它的β几乎可以使用默认值不变化。当然这是吴恩达的看法,并不是完全绝对的。 假设我们有两个超参数,可能会首先想到系统的等间距选择超参数来找到 阅读全文
摘要:
Mini-batch(小批量)梯度下降算法 在大数据领域中的深度学习表现的并不算完美,因为庞大的数据量让训练变得很慢。Mini-batch梯度下降算法是快速优化算法的一种,能够在大数据中大幅提高效率。 吴恩达在这里介绍的不是很清晰,梯度下降算法分为批量、小批量和随机三种。 批量就是使用全部的数据进行 阅读全文
摘要:
训练、开发、测试集 假设这个长方形是训练数据,第一部分为训练集,第二部分为简单交叉验证集(或称开发集),第三部分为测试集。训练集用于训练算法,通过验证集选择最好的模型,经过充分的验证选定最好的模型(从几套拟合效果不错的算法中验证出一套最有效的),然后放在测试集上评估。 在曾经机器学习的小数据量时代, 阅读全文
摘要:
概述 深层神经网络就是增加隐藏层的数量,我们发现有一些问题只有深层神经网络才能解决,但通常需要用到深度学习时先从简单的逻辑回归尝试训练集比较好,把隐藏层的层数作为一个参数来一点点调整,选择较优解。 我们通常使用L来表示神经网络的层数,例如L=4。用n[l]来表示第L层神经单元的个数,如n[1]=5, 阅读全文
摘要:
概览 首先将一个逻辑回归拓展为神经网络大概如上图所示,需要说明上标用方括号的表示不同层,区别于之前的用圆括号表示的上标(表示不同的样本)。反向传播同理往回传就行。 x的那一层被称为输入层,中间都是隐藏层,最后只有一个节点的是输出层。隐藏层在神经网络学习过程中,其具体数值我们是不知道的,所以称为隐藏层 阅读全文
摘要:
逻辑回归中的梯度下降算法 L为逻辑回归的损失函数,其中a是逻辑回归的输出,y是样本的真值。 假设有两个特征x1\x2,那么就还需要两个参数w1\w2,再加上一个b(常数项,就是机器学习中的x0),才能得到逻辑回归的结果a,继而算出损失函数L。 此处我们学习的是梯度下降算法,实际上核心就是右下角蓝色字 阅读全文
摘要:
9.1 代价函数 此处重点讲解神经网络在分类问题中的应用。 假设有一个与左图类似的神经网络结构,再假设右边这些是训练集。 用L表示神经网络的总层数即L=4。 用sl来表示第l层的单元数(神经元的数量),其中不包括偏置单元,比如s1=3,s2=5,s4=sL=4 我们将会考虑两种分类问题: 第一种是二 阅读全文
摘要:
8.1 非线性假设 假如有一个监督学习分类问题,其训练集如图所示。你可以构造一个包含很多非线性项的逻辑回归问题来解决这个问题,当多项式足够多时,你就可以得到可以将正负样本分开的假设。当只有两个特征x1x2时,这种方法的确能得到不错的效果,因为你可以把x1x2的所有组合都包含在多项式中。但许多机器学习 阅读全文
摘要:
7.1 过度拟合 之前学习过的线性回归和逻辑回归在机器学习问题的应用当中,都会遇到过度拟合的问题,后面学习的正则化可以改善这个问题。 如上图,我们继续用线性回归预测房价的例子。第一个图,用一次函数的模型来拟合数据,很明显直线拟合的不是很好,我们称为欠拟合,或称这个算法具有高偏差 第二个图用二次函数拟 阅读全文
摘要:
6.1 分类 我们开始讨论要预测的y是一个离散值情况下的分类问题。我们将开发一个逻辑回归算法(一个分类算法) 分类问题:例如将邮件分为是否是垃圾邮件,判断肿瘤是恶性还是良性等。 二元分类问题:非负即正非黑即白的问题,如上面的两个例子 多分类问题:即有多个结果的问题。 当我们用线性回归的方法处理这个问 阅读全文
摘要:
4.1 多功能 当我们在预测某一个数值比如房价时,影响房价预测结果的往往不止房屋面积一项,而我们之前做的工作都是只有一个变量影响结果,现在扩展至多个变量 当变量扩展至n个时,假设函数中也多了与之对应的参数θ。此时我们再构造向量乘法时,发现有n个变量x,而却有n+1个参数θ。所以我们在构造X向量时,在 阅读全文
摘要:
3.1矩阵和向量 3.2加法和标量乘法(数乘) 3.3 3.4矩阵/向量的乘法 显然,当我们用假设函数预测房价时,就可以根据假设函数中的变量关系构造出一个矩阵和向量的乘法,以方便在编程时计算大量数据。 同理,当一组数据需要用多个假设函数来预测时,可以构造矩阵乘法 3.5 矩阵乘法的性质 3.6 逆和 阅读全文
摘要:
2.1模型描述 线性回归 这是一个监督学习预测房价的例子。之所以是监督学习,是因为每一个输入都有一个正确的输出与之对应,也就是每当我们给出房子的大小就知道房子的价格。同样这也是一个回归问题,回归是指我们预测一个具体的数值输出,也就是价格。另一种常见的监督学习问题被称为分类问题,我们用它来预测离散值的 阅读全文