摘要: 之前提到,深度神经网络在训练中容易遇到梯度消失/爆炸的问题,这个问题产生的根源详见之前的读书笔记。在 Batch Normalization 中,我们将输入数据由激活函数的收敛区调整到梯度较大的区域,在一定程度上缓解了这种问题。不过,当网络的层数急剧增加时,BP 算法中导数的累乘效应还是很容易让梯度 阅读全文
posted @ 2018-01-07 14:35 大白话AI 阅读(5364) 评论(3) 推荐(0) 编辑
摘要: 在神经网络的训练过程中,总会遇到一个很蛋疼的问题:梯度消失/爆炸。关于这个问题的根源,我在上一篇文章的读书笔记里也稍微提了一下。原因之一在于我们的输入数据(网络中任意层的输入)分布在激活函数收敛的区域,拿 sigmoid 函数举例: 如果数据分布在 [-4, 4] 这个区间两侧,sigmoid 函数 阅读全文
posted @ 2018-01-07 14:31 大白话AI 阅读(2424) 评论(0) 推荐(0) 编辑
摘要: 本文是根据 TensorFlow 官方 "教程" 翻译总结的学习笔记,主要介绍了在 TensorFlow 中如何共享参数变量。 教程中首先引入共享变量的应用场景,紧接着用一个例子介绍如何实现共享变量(主要涉及到 和`tf.get_variable()`两个接口),最后会介绍变量域 (Variable 阅读全文
posted @ 2018-01-07 14:29 大白话AI 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 最近在学习 SVM 的过程中,遇到关于优化理论中拉格朗日乘子法的知识,本文是根据几篇文章总结得来的笔记。由于是刚刚接触,难免存在错误,还望指出😁 另外,本文不会聊到深层次的数学推导,仅仅是介绍拉格朗日乘子法的内容,应用,以及个人对它的感性理解。 什么是拉格朗日乘子法 按照维基百科的定义,拉格朗日乘 阅读全文
posted @ 2018-01-07 14:27 大白话AI 阅读(3034) 评论(0) 推荐(0) 编辑
摘要: (本文是根据 "neuralnetworksanddeeplearning" 这本书的第五章 "Why are deep neural networks hard to train?" 整理而成的读书笔记,根据个人口味做了删减) 在之前的笔记中,我们已经学习了神经网络最核心的 BP 算法,以及一些改 阅读全文
posted @ 2018-01-07 14:23 大白话AI 阅读(344) 评论(0) 推荐(0) 编辑
摘要: (本文是根据 "neuralnetworksanddeeplearning" 这本书的第三章 "Improving the way neural networks learn" 整理而成的读书笔记,根据个人口味做了删减) 上一章,我们介绍了神经网络容易出现的过拟合问题,并学习了最常用的正则化方法,以 阅读全文
posted @ 2018-01-07 14:20 大白话AI 阅读(395) 评论(0) 推荐(0) 编辑
摘要: (本文是根据 "neuralnetworksanddeeplearning" 这本书的第三章 "Improving the way neural networks learn" 整理而成的读书笔记,根据个人口味做了删减) 上一章,我们学习了改善网络训练的代价函数:交叉熵函数。今天要介绍神经网络容易遇 阅读全文
posted @ 2018-01-07 14:17 大白话AI 阅读(814) 评论(0) 推荐(0) 编辑
摘要: (本文是根据 "neuralnetworksanddeeplearning" 这本书的第三章 "Improving the way neural networks learn" 整理而成的读书笔记,根据个人口味做了删减) 上一章中,我们领略了神经网络中最重要的算法:后向传播算法(BP)。它使得神经网 阅读全文
posted @ 2018-01-07 14:10 大白话AI 阅读(606) 评论(0) 推荐(0) 编辑