摘要: 批量归一化 "1.基本概念" "2.代码实现" 1.基本概念 对输入的标准化(浅层模型) 处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。 标准化处理输入数据使各个特征的分布相近 批量归一化(深度模型) 利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的 阅读全文
posted @ 2020-02-20 11:49 hou永胜 阅读(529) 评论(0) 推荐(0) 编辑
摘要: 经典卷积神经网络 "1.LeNet" "2.AlexNet" "3.VGG" "4.NiN" "5.GoogleNet" "6.ResNet" "7.DenseNet" 1.LeNet 卷积层块里的基本单位是卷积层后接平均池化层:卷积层用来识别图像里的空间模式,如线条和物体局部,之后的平均池化层则用 阅读全文
posted @ 2020-02-19 22:51 hou永胜 阅读(467) 评论(0) 推荐(0) 编辑
摘要: 卷积神经网络基础 "1.二维卷积层" "2.填充和步幅" "3.多输入通道和多输出通道" "4.卷积层与全连接层的对比" "5.池化" 1.二维卷积层 二维互相关(cross correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称 阅读全文
posted @ 2020-02-18 13:54 hou永胜 阅读(413) 评论(0) 推荐(0) 编辑
摘要: Transformer代码实现 "1.Masked softmax" "2.Multi heads attention" "3.Position wise FFN" "4.Add and Norm" "5.Position encoding" "6.Encoder block" "7.Transfo 阅读全文
posted @ 2020-02-18 10:48 hou永胜 阅读(2076) 评论(0) 推荐(1) 编辑
摘要: 注意力机制和Seq2Seq模型 "1.基本概念" "2.两种常用的attention层" "3.带注意力机制的Seq2Seq模型" "4.实验" 1. 基本概念 Attention 是一种通用的带权池化方法,输入由两部分构成:询问(query)和键值对(key value pairs)。$𝐤_𝑖 阅读全文
posted @ 2020-02-16 15:41 hou永胜 阅读(1011) 评论(0) 推荐(0) 编辑
摘要: 动手学pytorch 机器翻译 "1. 机器翻译与数据集" "2. Encoder Decoder" "3. Sequence to Sequence" "4. 实验" 1. 机器翻译与数据集 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(N 阅读全文
posted @ 2020-02-16 11:14 hou永胜 阅读(706) 评论(0) 推荐(0) 编辑
摘要: 循环神经网络进阶 "1.GRU" "2.LSTM" "3.Deep RNN" "4.Bidirection NN" 1.GRU RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT) ⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系 1.1数学表达式 $$ R_{t} = σ(X_tW_{x 阅读全文
posted @ 2020-02-15 12:22 hou永胜 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 影响模型效果的一些因素 "1. 梯度消失和梯度爆炸" "2. 模型参数初始化" "3. 考虑到环境因素的其他问题" "4. 实例:Kaggle房价预测" 1.梯度消失和梯度爆炸 深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。 当神经网络的层数较多时,模型的 阅读全文
posted @ 2020-02-15 11:23 hou永胜 阅读(471) 评论(0) 推荐(0) 编辑
摘要: 过拟合、欠拟合及其解决方案 "1. 过拟合、欠拟合的概念" "2. 权重衰减(通过l2正则化惩罚权重比较大的项)" "3. 丢弃法(drop out)" "4. 实验" 1.过拟合、欠拟合的概念 1.1训练误差和泛化误差 前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出 阅读全文
posted @ 2020-02-15 10:37 hou永胜 阅读(691) 评论(0) 推荐(0) 编辑
摘要: 文本预处理 预处理通常包括四个步骤: 1. 读入文本 2. 分词 3. 建立字典,将每个词映射到一个唯一的索引(index) 4. 将文本从词的序列转换为索引的序列,方便输入模型 读入文本 在此用一部英文小说,即H. G. Well的 "Time Machine" ,作为示例,展示文本预处理的具体过 阅读全文
posted @ 2020-02-13 17:59 hou永胜 阅读(706) 评论(0) 推荐(0) 编辑