Andrew Ng 深度学习笔记-01-week4-课程

一、专业词汇

deep neural network  深度学习网络

shallow model 浅层模型

weight  matrix    权重矩阵        

bias  terms   偏移项

notation  符号约定

dimensions 维数

3 dimensional vector 三维向量

the rules of matrix multiplication  矩阵乘法法则

face recognition  人脸识别

face detection   人脸检测

feature detector   特征探测器

edge detector      边缘探测器

circuit theory   电路理论

hyper parameters 超参数

 one iteration of gradient descent  一个梯度下降循环   

二、编程技巧

核对所有矩阵的维数保证前后一致

进行反向传播时,dw的维度和W相同,db的维度和b相同,这四个在向量化的过程中维度都是一样的:

 

但是Z A X的维度会在向量化后发生变化:

Z的维度和dZ的维度相同,A的维度和dA的维度相同:

在一个梯度下降循环中,将z w b的值进行缓存存储,可以很方便的将其应用到反向传播中

 

三、思维

logistic regression 属于单层浅层模型

 

 深层神经网络符号表示:

正向传播与反向传播流程:

 

深层网络正向传播通用公式:

 

 

 

深层网络正向传播向量化:

 

深层网络的好处:

可以将前面几层看作是探测简单的函数,将其和后面几层结合起来,整体上学习更多复杂的函数

边缘探测器相对来说都是针对照片中非常小块的面积

在深度神经网络的许多隐层中,较早的前几层能学习一些低层次的简单特征, 后面几层则将简单特征结合起来,去探测更加复杂的东西

使用电路理论解释深层网络的好处:浅层网络可能需要呈指数增长的单元数量达到与深层网路同样的效果:

 

深层网络反向传播:

 

 总结:

一个梯度下降循环:

 

 

 超参数:

   1)学习率:alpha     决定参数如何进化

   2)梯度下降循环的数量

   3)隐层数 L

   4)隐层单元数 n^[1]  n^[2]

   5)激活函数的选择

  以上参数某些程度上控制了最终的参数W和b

  其他参数:momentum term 

                    minibatch   size

                    不同的正则化参数

  例如可以通过选取不同的alpha的值,看最终的cost函数的变化,以选取收敛在cost函数值最低的且能加快学习速度的alpha值    idea------>code------->experiment  循环测试

 

   正向传播和反向传播表示:

 

 

posted @ 2018-07-19 07:20  bask!  阅读(193)  评论(0编辑  收藏  举报