04 2019 档案
摘要:RNN(Recurrent Neural Networks,循环神经网络)是一种具有短期记忆能力的神经网络模型,可以处理任意长度的序列,在自然语言处理中的应用非常广泛,比如机器翻译、文本生成、问答系统、文本分类等。 但由于梯度爆炸或梯度消失,RNN存在长期依赖问题,难以建立长距离的依赖关系,于是引入
阅读全文
摘要:学卷积神经网络的理论的时候,我觉得自己看懂了,可是到了用代码来搭建一个卷积神经网络时,我发现自己有太多模糊的地方。这次还是基于MINIST数据集搭建一个卷积神经网络,首先给出一个基本的模型,然后再用Batch Norm、Dropout和早停对模型进行优化;在此过程中说明我在调试代码过程中遇到的一些问
阅读全文
摘要:这一篇博客整理用TensorFlow实现神经网络正则化的内容。 深层神经网络往往具有数十万乃至数百万的参数,可以进行非常复杂的特征变换,具有强大的学习能力,因此容易在训练集上过拟合。缓解神经网络的过拟合问题,一般有两种思路,一种是用正则化方法,也就是限制模型的复杂度,比如Dropout、L1和L2正
阅读全文
摘要:在上一篇博客《TensorFlow之DNN(一):构建“裸机版”全连接神经网络》 中,我整理了一个用TensorFlow实现的简单全连接神经网络模型,没有运用加速技巧(小批量梯度下降不算哦)和正则化方法,通过减小batch size,也算得到了一个还可以的结果。 那个网络只有两层,而且MINIST数
阅读全文
摘要:博客断更了一周,干啥去了?想做个聊天机器人出来,去看教程了,然后大受打击,哭着回来补TensorFlow和自然语言处理的基础了。本来如意算盘打得挺响,作为一个初学者,直接看项目(不是指MINIST手写数字识别这种),哪里不会补哪里,这样不仅能学习到TensorFlow和算法知识,还知道如何在具体项目
阅读全文
摘要:在机器学习领域中,有一个重要的假设:独立同分布假设,也就是假设训练数据和测试数据是满足相同分布的,否则在训练集上学习到的模型在测试集上的表现会比较差。而在深层神经网络的训练中,当中间神经层的前一层参数发生改变时,该层的输入分布也会发生改变,也就是存在内部协变量偏移问题(Internal Covari
阅读全文
摘要:这篇文章整理有关注意力机制(Attention Mechanism )的知识,主要涉及以下几点内容: 1、注意力机制是为了解决什么问题而提出来的? 2、软性注意力机制的数学原理; 3、软性注意力机制、Encoder-Decoder框架与Seq2Seq 4、自注意力模型的原理。 一、注意力机制可以解决
阅读全文
摘要:看了一些LSTM的博客,都推荐看colah写的博客《Understanding LSTM Networks》 来学习LSTM,我也找来看了,写得还是比较好懂的,它把LSTM的工作流程从输入到输出整个撸了一遍,清晰地展示了整个流程,不足之处就是那个语言模型的例子不知道到底在表达什么。 But! 我觉得
阅读全文
摘要:循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络,适合用于处理视频、语音、文本等与时序相关的问题。在循环神经网络中,神经元不但可以接收其他神经元的信息,还可以接收自身的信息,形成具有环路的网络结构。 循环神经网络的参数学习可以通过随时间反向传播
阅读全文
摘要:卷积神经网络(CNN)因为在图像识别任务中大放异彩,而广为人知,近几年卷积神经网络在文本处理中也有了比较好的应用。我用TextCnn来做文本分类的任务,相比TextRnn,训练速度要快非常多,准确性也比较高。TextRnn训练慢得像蜗牛(可能是我太没有耐心),以至于我直接中断了训练,到现在我已经忘记
阅读全文
摘要:神经网络的拟合能力非常强,通过不断迭代,在训练数据上的误差率往往可以降到非常低,从而导致过拟合(从偏差-方差的角度来看,就是高方差)。因此必须运用正则化方法来提高模型的泛化能力,避免过拟合。 在传统机器学习算法中,主要通过限制模型的复杂度来提高泛化能力,比如在损失函数中加入L1范数或者L2范数。这一
阅读全文
摘要:这篇文章主要整理三部分内容,一是常见的三种神经网络结构:前馈神经网络、反馈神经网络和图网络;二是整理前馈神经网络中正向传播、误差反向传播和梯度下降的原理;三是梯度消失和梯度爆炸问题的原因及解决思路。 一、神经网络结构 目前比较常用的神经网络结构有如下三种: 1、前馈神经网络 前馈神经网络中,把每个神
阅读全文
摘要:深层神经网络的参数学习主要通过梯度下降法来寻找一组可以最小化结构风险的参数。在具体实现中,梯度下降法可以分为:批量梯度下降、随机梯度下降和小批量梯度下降三种形式。 而对于这三种梯度下降的方法,又可以从调整学习率、调整负梯度两个方向来进行改进,比如RMSprop,Momentum和Adam。 这里介绍
阅读全文
摘要:激活函数(activate function)在神经元中非常重要,为了增强网络的表示能力和学习能力,激活函数需要具备以下几点性质: (1)连续并可导的非线性函数,以便于利用数值优化的方法来学习网络参数。 (2)激活函数及其导数要尽可能简单,以提高网络计算的效率。 (3)激活函数的导函数的值域要在一个
阅读全文
摘要:一、Logistic回归 Logistic回归(Logistic Regression,简称LR)是一种常用的处理二类分类问题的模型。 在二类分类问题中,把因变量y可能属于的两个类分别称为负类和正类,则因变量y∈{0, 1},其中0表示负类,1表示正类。线性回归的输出值在负无穷到正无穷的范围上,不太
阅读全文
摘要:随机森林(Random Forest)是一种Bagging(Bootstrap Aggregating)集成算法,在样本随机(样本扰动)的基础上,进一步运用特征随机(属性扰动)的机制,得到比一般的Bagging集成更好的效果。 要理解随机森林,需要理解以下几点: 1、什么是自助采样(Bootstra
阅读全文
摘要:XGBoost是一个机器学习味道非常浓厚的模型,在数学上非常规范,运用正则化、L2范数、二阶梯度、泰勒公式和分布式计算方法,对GBDT等提升树模型进行优化,不仅能处理更大规模的数据,而且运行效率特别高。看完了XGBoost的原理后,我只能借用邓紫棋在《我是歌手》舞台上唱《喜欢你》时说的那句话:“太漂
阅读全文
摘要:一、GBDT的通俗理解 提升方法采用的是加法模型和前向分步算法来解决分类和回归问题,而以决策树作为基函数的提升方法称为提升树(boosting tree)。GBDT(Gradient Boosting Decision Tree)就是提升树算法的一种,它使用的基学习器是CART(分类和回归树),且是
阅读全文
摘要:集成学习(ensemble learning)通过构建并结合多个个体学习器来完成学习任务,也被称为基于委员会的学习。 集成学习构建多个个体学习器时分两种情况:一种情况是所有的个体学习器都是同一种类型的学习算法,比如都是决策树,或者都是神经网络。这样的集成是“同质”的,同质集成中的个体学习器称为“基学
阅读全文
摘要:频率学派(古典学派)和贝叶斯学派是数理统计领域的两大流派。 这两大流派对世界的认知有本质的不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的
阅读全文

浙公网安备 33010602011771号