摘要: 这一篇博客整理用TensorFlow实现神经网络正则化的内容。 深层神经网络往往具有数十万乃至数百万的参数,可以进行非常复杂的特征变换,具有强大的学习能力,因此容易在训练集上过拟合。缓解神经网络的过拟合问题,一般有两种思路,一种是用正则化方法,也就是限制模型的复杂度,比如Dropout、L1和L2正 阅读全文
posted @ 2019-04-25 16:10 Luv_GEM 阅读(7512) 评论(0) 推荐(0) 编辑
摘要: 在上一篇博客《TensorFlow之DNN(一):构建“裸机版”全连接神经网络》 中,我整理了一个用TensorFlow实现的简单全连接神经网络模型,没有运用加速技巧(小批量梯度下降不算哦)和正则化方法,通过减小batch size,也算得到了一个还可以的结果。 那个网络只有两层,而且MINIST数 阅读全文
posted @ 2019-04-24 22:12 Luv_GEM 阅读(4439) 评论(0) 推荐(0) 编辑
摘要: 博客断更了一周,干啥去了?想做个聊天机器人出来,去看教程了,然后大受打击,哭着回来补TensorFlow和自然语言处理的基础了。本来如意算盘打得挺响,作为一个初学者,直接看项目(不是指MINIST手写数字识别这种),哪里不会补哪里,这样不仅能学习到TensorFlow和算法知识,还知道如何在具体项目 阅读全文
posted @ 2019-04-24 12:00 Luv_GEM 阅读(3312) 评论(0) 推荐(0) 编辑
摘要: 在机器学习领域中,有一个重要的假设:独立同分布假设,也就是假设训练数据和测试数据是满足相同分布的,否则在训练集上学习到的模型在测试集上的表现会比较差。而在深层神经网络的训练中,当中间神经层的前一层参数发生改变时,该层的输入分布也会发生改变,也就是存在内部协变量偏移问题(Internal Covari 阅读全文
posted @ 2019-04-23 20:21 Luv_GEM 阅读(2243) 评论(3) 推荐(3) 编辑
摘要: 这篇文章整理有关注意力机制(Attention Mechanism )的知识,主要涉及以下几点内容: 1、注意力机制是为了解决什么问题而提出来的? 2、软性注意力机制的数学原理; 3、软性注意力机制、Encoder-Decoder框架与Seq2Seq 4、自注意力模型的原理。 一、注意力机制可以解决 阅读全文
posted @ 2019-04-15 23:55 Luv_GEM 阅读(34341) 评论(5) 推荐(9) 编辑
摘要: 看了一些LSTM的博客,都推荐看colah写的博客《Understanding LSTM Networks》 来学习LSTM,我也找来看了,写得还是比较好懂的,它把LSTM的工作流程从输入到输出整个撸了一遍,清晰地展示了整个流程,不足之处就是那个语言模型的例子不知道到底在表达什么。 But! 我觉得 阅读全文
posted @ 2019-04-14 22:33 Luv_GEM 阅读(6513) 评论(0) 推荐(0) 编辑
摘要: 循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络,适合用于处理视频、语音、文本等与时序相关的问题。在循环神经网络中,神经元不但可以接收其他神经元的信息,还可以接收自身的信息,形成具有环路的网络结构。 循环神经网络的参数学习可以通过随时间反向传播 阅读全文
posted @ 2019-04-14 16:55 Luv_GEM 阅读(20551) 评论(0) 推荐(1) 编辑
摘要: 卷积神经网络(CNN)因为在图像识别任务中大放异彩,而广为人知,近几年卷积神经网络在文本处理中也有了比较好的应用。我用TextCnn来做文本分类的任务,相比TextRnn,训练速度要快非常多,准确性也比较高。TextRnn训练慢得像蜗牛(可能是我太没有耐心),以至于我直接中断了训练,到现在我已经忘记 阅读全文
posted @ 2019-04-13 21:21 Luv_GEM 阅读(2639) 评论(3) 推荐(0) 编辑
摘要: 神经网络的拟合能力非常强,通过不断迭代,在训练数据上的误差率往往可以降到非常低,从而导致过拟合(从偏差-方差的角度来看,就是高方差)。因此必须运用正则化方法来提高模型的泛化能力,避免过拟合。 在传统机器学习算法中,主要通过限制模型的复杂度来提高泛化能力,比如在损失函数中加入L1范数或者L2范数。这一 阅读全文
posted @ 2019-04-13 11:35 Luv_GEM 阅读(8867) 评论(1) 推荐(1) 编辑
摘要: 这篇文章主要整理三部分内容,一是常见的三种神经网络结构:前馈神经网络、反馈神经网络和图网络;二是整理前馈神经网络中正向传播、误差反向传播和梯度下降的原理;三是梯度消失和梯度爆炸问题的原因及解决思路。 一、神经网络结构 目前比较常用的神经网络结构有如下三种: 1、前馈神经网络 前馈神经网络中,把每个神 阅读全文
posted @ 2019-04-12 22:39 Luv_GEM 阅读(16434) 评论(0) 推荐(3) 编辑