02 2020 档案
摘要:文本情感分类 "1.文本情感分类数据集" "2.使用循环神经网络进行情感分类" "3.使用卷积神经网络进行情感分类" 1.文本情感分类数据 在本中,将应用预训练的词向量和含多个隐藏层的双向循环神经网络与卷积神经网络,来判断一段不定长的文本序列中包含的是正面还是负面的情绪。 使用 "斯坦福的IMDb数
阅读全文
摘要:文本嵌入预训练模型Glove "1.词嵌入预训练模型" "2.Glove" "3.求近义词和类比词" 1.文本嵌入预训练模型 虽然 Word2Vec 已经能够成功地将离散的单词转换为连续的词向量,并能一定程度上地保存词与词之间的近似关系,但 Word2Vec 模型仍不是完美的,它还可以被进一步地改进
阅读全文
摘要:Word2vec "1.词嵌入基础" "2.PTB数据集" "3.Skip Gram" "4.负采样近似" "5.训练模型" 1.词嵌入基础 使用 one hot 向量表示单词,虽然它们构造起来很容易,但通常并不是一个好选择。一个主要的原因是,one hot 词向量无法准确表达不同词之间的相似度,如
阅读全文
摘要:迁移学习 "1.基本概念" "2.Fine tuning" "3.Fixed" 1.基本概念 假设我们想从图像中识别出不同种类的椅子,然后将购买链接推荐给用户。一种可能的方法是先找出100种常见的椅子,为每种椅子拍摄1,000张不同角度的图像,然后在收集到的图像数据集上训练一个分类模型。这个椅子数据
阅读全文
摘要:数据增强 "1.基本概念" "2.常用增强方法" "3.叠加使用" 1.基本概念 图像增广(image augmentation)技术通过对训练图像做一系列随机改变,来产生相似但又不同的训练样本,从而扩大训练数据集的规模。图像增广的另一种解释是,随机改变训练样本可以降低模型对某些属性的依赖,从而提高
阅读全文
摘要:优化算法 "1.Momentum" "2.AdaGrad" "3.RMSProp" "4.AdaDelta" "5.Adam" 1.Momentum 目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此,梯度下降也叫作最陡下降(steepest descent)。在每次迭代中,
阅读全文
摘要:梯度下降 ( "Boyd & Vandenberghe, 2004" ) 一维梯度下降 证明:沿梯度反方向移动自变量可以减小函数值 泰勒展开: $$ f(x+\epsilon)=f(x)+\epsilon f^{\prime}(x)+\mathcal{O}\left(\epsilon^{2}\rig
阅读全文
摘要:优化与深度学习 优化与估计 尽管优化方法可以最小化深度学习中的损失函数值,但本质上优化方法达到的目标与深度学习的目标并不相同。 优化方法目标:训练集损失函数值 深度学习目标:测试集损失函数值(泛化性) 优化在深度学习中的挑战 1. 局部最小值 2. 鞍点 3. 梯度消失 局部最小值 $$ f(x)
阅读全文
摘要:批量归一化 "1.基本概念" "2.代码实现" 1.基本概念 对输入的标准化(浅层模型) 处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。 标准化处理输入数据使各个特征的分布相近 批量归一化(深度模型) 利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的
阅读全文
摘要:经典卷积神经网络 "1.LeNet" "2.AlexNet" "3.VGG" "4.NiN" "5.GoogleNet" "6.ResNet" "7.DenseNet" 1.LeNet 卷积层块里的基本单位是卷积层后接平均池化层:卷积层用来识别图像里的空间模式,如线条和物体局部,之后的平均池化层则用
阅读全文
摘要:卷积神经网络基础 "1.二维卷积层" "2.填充和步幅" "3.多输入通道和多输出通道" "4.卷积层与全连接层的对比" "5.池化" 1.二维卷积层 二维互相关(cross correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称
阅读全文
摘要:Transformer代码实现 "1.Masked softmax" "2.Multi heads attention" "3.Position wise FFN" "4.Add and Norm" "5.Position encoding" "6.Encoder block" "7.Transfo
阅读全文
摘要:注意力机制和Seq2Seq模型 "1.基本概念" "2.两种常用的attention层" "3.带注意力机制的Seq2Seq模型" "4.实验" 1. 基本概念 Attention 是一种通用的带权池化方法,输入由两部分构成:询问(query)和键值对(key value pairs)。$𝐤_𝑖
阅读全文
摘要:动手学pytorch 机器翻译 "1. 机器翻译与数据集" "2. Encoder Decoder" "3. Sequence to Sequence" "4. 实验" 1. 机器翻译与数据集 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(N
阅读全文
摘要:循环神经网络进阶 "1.GRU" "2.LSTM" "3.Deep RNN" "4.Bidirection NN" 1.GRU RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT) ⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系 1.1数学表达式 $$ R_{t} = σ(X_tW_{x
阅读全文
摘要:影响模型效果的一些因素 "1. 梯度消失和梯度爆炸" "2. 模型参数初始化" "3. 考虑到环境因素的其他问题" "4. 实例:Kaggle房价预测" 1.梯度消失和梯度爆炸 深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。 当神经网络的层数较多时,模型的
阅读全文
摘要:过拟合、欠拟合及其解决方案 "1. 过拟合、欠拟合的概念" "2. 权重衰减(通过l2正则化惩罚权重比较大的项)" "3. 丢弃法(drop out)" "4. 实验" 1.过拟合、欠拟合的概念 1.1训练误差和泛化误差 前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出
阅读全文
摘要:文本预处理 预处理通常包括四个步骤: 1. 读入文本 2. 分词 3. 建立字典,将每个词映射到一个唯一的索引(index) 4. 将文本从词的序列转换为索引的序列,方便输入模型 读入文本 在此用一部英文小说,即H. G. Well的 "Time Machine" ,作为示例,展示文本预处理的具体过
阅读全文
摘要:循环神经网络的构造 假设\boldsymbol{X}_t \in \mathbb{R}^{n \times d}是时间步t的小批量输入,\boldsymbol{H}_t \in \mathbb{R}^{n \times h}是该时间步的隐藏变量,则: $$ \boldsymbol{H}_
阅读全文
摘要:1.语言模型 假设序列w_1, w_2, \ldots, w_T中的每个词是依次生成的,我们有 $$ \begin{align } P(w_1, w_2, \ldots, w_T) &= \prod_{t=1}^T P(w_t \mid w_1, \ldots, w_{t 1})\\ &= P(
阅读全文
摘要:1.激活函数 ReLU LeakyReLU Tanh ... "手册" 2.手写 3.使用pytorch简洁实现
阅读全文
摘要:1.softmax softmax(x_i) = \frac{ \exp(x_i)}{\sum_{j} \exp(x_j)} 2.cross entropy $$ H\left(\boldsymbol y^{(i)}, \boldsymbol {\hat y}^{(i)}\right )
阅读全文
摘要:1.模型 \mathrm{Y} = \mathrm{WX} + b 2.数据集 training set:已获得的,可用作模型训练的,带标签的数据集(对有监督模型来说) sample : 数据集中的一个样本 label : 标签 feature: 决定标签的特征 3.损失函数 $$ l^
阅读全文