摘要: 两个作用: 1、改变通道数,在inception网络中作为瓶颈,明显降低参数数量以及计算成本。 并且经过证明,合理的使用1x1的卷积并不会影响之后的影响。(具体的合理怎么规定?这里以后再说) 2、可以单纯的RELU的非线性,可以学习到更为复杂的函数。 inception提出的动机:不用人工选择卷积核 阅读全文
posted @ 2021-10-01 21:24 踏浪前行 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 【conv 64 】X2表示同样的same卷积进行两次,这里就不展开2次了,化简表示为一次 resNet让深度学习可以学习的更深,over100层。主要解决梯度消失, 公式可以说明,残差和RELU是绝配。 细节:resnet用的是same 卷积,两个张量维度相同,所以便于直接相加。 阅读全文
posted @ 2021-10-01 20:46 踏浪前行 阅读(90) 评论(0) 推荐(0) 编辑
摘要: 左边10的部分表示较亮的部分,可以看到将左边图片中间的线-->右边图片扩大加粗了。 区分 两者的变化。 2、padding的意义:(n+2p-(f-1))**2 有步长[(n+2p-f)/s ]+1 第一、防止图片经过多次卷积之后大小变的很小 第二、公平对待图片中所有的信息,不会偏心于中心区域的图片 阅读全文
posted @ 2021-10-01 19:49 踏浪前行 阅读(830) 评论(0) 推荐(0) 编辑
摘要: 批归一化,不仅可以用在输入层能够加速梯度下降,而且可以用在隐藏层Z(i),另外可以改变其均值方差。 批量归一化为什么会奏效? 1、正规化,让每个维度有类似的大小范围,加快梯度下降,这只是浅层的原因 2、更进一步,由于批的分布变化可能会极不稳定,对后面的网络参数训练也不稳定,所有统一做成一个稳定的N( 阅读全文
posted @ 2021-10-01 11:13 踏浪前行 阅读(71) 评论(0) 推荐(0) 编辑
摘要: 学习率和β的随机搜索,一般选择对数轴进行优化,因为这样比较公平,不至于0到0.1只占了10%的资源,但是他的作用远远大于10%。 阅读全文
posted @ 2021-10-01 10:45 踏浪前行 阅读(514) 评论(0) 推荐(0) 编辑
摘要: 局部最优,在深度学习中一般不会出现。弄清楚局部最优的概念,是要求所有方向都凸函数的情况下,才具有局部最优,这个比例往往是很小的。例如20000个方向的局部最优,需要2的20000次方才能成立。 鞍点,这是我们深度学习中经常会碰到的情况,有一部分时凸函数,一部分是凹函数。 动量法,RMSprop、Ad 阅读全文
posted @ 2021-10-01 10:25 踏浪前行 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 固定学习率:1、学习的相对比较慢 2、最终结果不能收敛在一个小的范围内。 学习率衰减的本质: 在刚开始学习的时候,你可以承受较大的步数,快速到局部最优点附近,然后衰减学习率,让最终的值在最小值附近不断游离,以此来保证最终值收缩在一定范围 阅读全文
posted @ 2021-10-01 09:56 踏浪前行 阅读(235) 评论(0) 推荐(0) 编辑
摘要: RMSprop:通过指数加权均,使得大不能不能过大,小的不能太小。 动量法,通过指数加权平均求对应平均值,使其下降的更为平稳。 Adam就是结合了RMSprop 和动量法 RMSProp算法不是像AdaGrad算法那样暴力直接的累加平方梯度,而是加了一个衰减系数来控制历史信息的获取多少。 阅读全文
posted @ 2021-10-01 01:00 踏浪前行 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 使用了之前所提到的指数加权平均:不断迭代,减少了纵向的幅度,增大了横向的幅度,取了指数加权平均值,所以更为顺滑,并且收敛的更快。 阅读全文
posted @ 2021-10-01 00:01 踏浪前行 阅读(84) 评论(0) 推荐(0) 编辑
摘要: 结论先行:为什么要使用指数加权平均?因为深度学习中计算效率优先,指数加权平均不占用内存计算平均,并且一行代码搞定。 V2 = βV1+(1-β)b2 V3= βV1+(1-β)b3 不断更新迭代,这就是指数加权平均的由来。意义是指1/(1-β) 天的平均值。 修正偏差的指数加权平均,初始值太小。 阅读全文
posted @ 2021-09-30 23:46 踏浪前行 阅读(178) 评论(0) 推荐(0) 编辑