随笔分类 - DeepLearning
摘要:1.Batch Normalization feature map: ,包含 N 个样本,每个样本通道数为 C,高为 H,宽为 W。对其求均值和方差时,将在 N、H、W上操作,而保留通道 C 的维度。具体来说,
阅读全文
摘要:一、简介 说到推荐系统,我们肯定是要问它是为什么而存在的,即存在的意义是什么。 随着当今技术的飞速发展,数据量也与日俱增,人们越来越感觉在海量数据面前束手无策。正是为了解决信息过载(Information overload)的问题,人们提出了推荐系统(与搜索引擎对应,人们习惯叫推荐系统为推荐引擎)。
阅读全文
摘要:一、基本概念 评价指标是针对模型性能优劣的一个定量指标。 一种评价指标只能反映模型一部分性能,如果选择的评价指标不合理,那么可能会得出错误的结论,故而应该针对具体的数据、模型选取不同的的评价指标。 本文将详细介绍机器学习分类任务的常用评价指标:混淆矩阵(Confuse Matrix)、准确率(Acc
阅读全文
摘要:一、ELMo 1.基本信息 2018年提出的论文《Deep contextualized word representations》,其中一个很重要的思想就是ELMo,论文发表在NAACL。 ELMo是一种新型深度语境化词表征,可对词进行复杂特征(如句法和语义)和词在语言语境中的变化进行建模(即对多
阅读全文
摘要:一、Internal Covariate Shift 论文提出BN是用来解决“Internal Covariate Shift”问题的。如果输入数据经常变换,那么网络模型很难学到泛化的特征。对于深度学习这种包含很多隐层的网络结构,在训练过程中,因为各层参数不停在变化,所以每个隐层都会面临covari
阅读全文
摘要:1. 平方损失函数 L2范数损失函数,也被称为最小平方误差(LSE)。它是把目标值与估计值的差值的平方和最小化。一般回归问题会使用此损失,离群点对次损失影响较大。 2.交叉熵损失函数 分类问题因为输出的是概率,故
阅读全文
摘要:激活函数的作用 如果不用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。故而激活函数可以增加模型的表达能力。 1.sigmoid函数 sigmoid函数也叫 Logistic 函数,用于隐层神经元输出,取值范围为(0,1),它可以将一个实数映射到(0,1)的
阅读全文
摘要:1. Gradient Descent 1.1 Batch Gradient Descent 在每一轮的训练过程中,Batch Gradient Descent算法用整个训练集的数据计算cost fuction的梯度,并用该梯度对模型参数进行更新,其中是训练参数,是学习率
阅读全文
摘要:一、Attention 1.基本信息 最先出自于Bengio团队一篇论文:NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE ,论文在2015年发表在ICLR。 encoder-decoder模型通常的做法是将一
阅读全文
摘要:1. 学习率 学习率是指在优化算法中更新网络权重的幅度大小。学习率可以是恒定的、逐渐降低的、基于动量的或者是自适应的,采用哪种学习率取决于所选择优化算法的类型,如SGD、Adam、Adagrad、AdaDelta或RMSProp等算法。 2. 迭代次数 迭代次数是指整个训练集输入到神经网络进行训练的
阅读全文
摘要:一、卷积网络基本概念 作用: 也可以称作为滤波器,是消除噪声(在图像上是指引起较强视觉效果的孤立像素点或像素块),提取主要研究对象。 优点: 参数共享 利用BP自动学习权重特征 缺点: 需要大量的有监督数据 特征: 较浅的卷积层感受野较小,学习到一些局部区域的特征。较深的卷积层具有较大的感受野,能够
阅读全文
摘要:ROI pooling是将不定长的tensor转化为定长的tensor。 具体操作如下 加入将输入的tensor生成2*2的tensor。采用max pooling。 input tensor: 将tensor分割为四部分。 最后得到如下tensor
阅读全文
摘要:1.tensorflow pip install tensorflow-gpu==1.14.0,具体安装哪一个版本,可以把1.14.0随便填写一个数字,系统会提示可以有哪些版本可以安装 2.pytorch conda install pytorch torchvision cudatoolkit=9
阅读全文
摘要:一、dropout的提出和原理 在2012年,Hinton在其论文《Improving neural networks by preventing co-adaptation of feature detectors》中提出Dropout,目的是为了缓解模型的过拟合。 co-adaptation:在
阅读全文