“Technology has change|

Uriel-w

园龄:5年粉丝:6关注:1

随笔分类 -  深度学习

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context(论文)
摘要:Transformer模型能够学习长范围依赖,但是在语言模型中受到固定长度上下文限制,本文提出了一个新的结构:Transformer-XL。能够学习超过固定长度的依赖,同时保持了时间的连贯性,整体创新包括一个循环机制和一个新的位置编码方法。 存在的问题以及解决的方案: 在语言模型中构建长范围依赖是至
139
0
0
nn.Embedding 的理解
摘要:Embedding是将输入向量化,参数包括: nn.Embedding(vocab_size, emb_size) vocab_size:词典大小(不是每个batch size的长度,而是数据集词库的大小)emb_size:每个词需要嵌入多少维来表示(也就是输入维度)构造一个(假装)vocab si
1408
0
1
Fastformer: Additive Attention Can Be All You Need
摘要:创新点: 本文根据transformer模型进行改进,提出了一个高效的模型,模型复杂度呈线性。 主要改进了注意力机制,出发点在于降低了注意力矩阵的重要程度,该方法采用一个(1*T)一维向量替换了原始T*T大小的注意力矩阵。 注意力结构图: 在这里,输入同样通过不同的线性映射得到Q,K,V,然后通过Q
128
0
0
Branchformer
摘要:创新点: 为了改善模型性能,在ASR任务中一种有效的方法是融合全局和局部特征,为了使模型更加灵活,本文提出的方法不同与Comformer。 通过实验发现,模型对局部和全局特征提取在每一层发挥了不同的作用,并发现不同层局部和全局重要程度不同。 模型结构图: 通过模型结构图可以发现,Branchform
492
0
0
关于对Comformer中卷积层的理解
摘要:"""ConvolutionModule definition.""" from torch import nn class ConvolutionModule(nn.Module): """ConvolutionModule in Conformer model. Args: channels (
177
0
0
一维卷积
摘要:torch.nn.Conv1d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True) 主要参数说明: in_channels:在文本应用中,即为词向量的维度 out_
455
0
0
MKL_INTERFACE_LAYER: unbound variable
摘要:tmpfs是一种基于内存的文件系统,不像其他的文件系统需要格式化后才可以挂载,而是直接使用,由于是在内存中存储数据,那么在断电后会导致数据丢失。在使用到tmpfs文件系统存储数据效率会得到一定的提升。使用命令: mout -t tmpfs -o size=200g tmpfs /home/data/
353
0
0
spec = librosa.feature.melspectrogram(sig,n_fft=2048,hop_length=256,window="hann")
摘要:spec = librosa.feature.melspectrogram(sig,n_fft=2048,hop_length=256,window="hann") 如同前面文章所讲的,真正在取 spectrogram 的时候呢,并不是单纯的只做 STFT ,在做 STFT 之前还会有一些操作,通常
900
0
0
espnet的安装
摘要:1.首先是需要换源: https://www.cnblogs.com/Uriel-w/p/16387090.html 2.创建conda环境: 创建环境:conda create -n espnet python=3.7.3退出环境:conda deactivate删除环境:# conda remo
1050
1
0
conda默认源切换为国内下载源
摘要:在安装各种环境过程中,经常会出现使用conda install时下载速度极慢,为了解决这一问题,可以选择将conda切换为国内下载源,这里我们使用清华园: 在终端中输入以下几行配置命令: conda config --add channels https://mirrors.tuna.tsinghu
2136
0
0
Squeeze-and-Excitation
摘要:SENet-2017 Squeeze-and-Excitation Networks 最后一届 ImageNet 2017 竞赛 Image Classification 任务的冠军,并被邀请在 CVPR 2017 的 workshop(Beyond ImageNet)中给出算法介绍. 核心思想 S
139
0
0
模型大小,计算量,复杂度
摘要:1、模型复杂度的衡量 参数数量(Params): 指模型含有多少参数,直接决定模型的大小,也影响推断时对内存的占用量 单位通常为 M,通常参数用 float32 表示,所以模型大小是参数数量的 4 倍左右 参数数量与模型大小转换示例: 10M float32 bit = 10M × 4 Byte =
2702
0
0
mini batch
摘要:因为梯度更新的时候有三种方式: 第一种是batch gradient descent(批梯度下降),这种方式模型遍历所有数据后计算损失函数然后更新梯度,这样计算过于复杂,所以引出第二种。 第二种是stochastic gradient descent(随机梯度下降),就是每读取一个数据就计算损失函数
103
0
0
GPU排队脚本,当GPU空闲就触发脚本
摘要:本文为解决GPU计算资源充分利用,避免经常去查看GPU是否空闲,通过脚本检测GPU使用情况,当GPU利用率较低时来跑其他实验 首先新建一个py文件,将代码复制到文件中,对cmd的值表示我们需要执行的程序实验: import os import sys import time cmd = 'CUDA_
449
0
0
交叉熵与KL 散度(相对熵)
摘要:目前分类损失函数为何多用交叉熵,而不是 KL 散度。 首先损失函数的功能是通过样本来计算模型分布与目标分布间的差异,在分布差异计算中,KL 散度是最合适的。但在实际中,某一事件的标签是已知不变的(例如我们设置猫的 label 为 1,那么所有关于猫的样本都要标记为 1),即目标分布的熵为常数。而根据
247
0
0
Batch Normalization & layer normalization
摘要:BN回顾 #####首先Batch Normalization 中的Normalization被称为标准化,通过将数据进行平和缩放拉到一个特定的分布。BN就是在batch维度上进行数据的标准化。BN的引入是用来解决 internal covariate shift 问题,即训练迭代中网络激活的分布的
42
0
0
CentOS安装kenlm
摘要:注意:下面缺少任何一个依赖包都不能安装成功,建议在线安装,让系统自动配置。CentOS和Ubuntu安装的包有所不同 Linux中离线下载软件包网站,主要提供RPM包:https://rpm.pbone.net/ ,https://pkgs.org/ 1、安装boost yum install bo
374
0
0
《RETHINKING POSITIONAL ENCODING IN LANGUAGE PRE-TRAINING》TUPE论文复现
摘要:论文《TUPE》复现 原有的注意力计算公式拆分为四部分后发现,中间两部分(word-to-position, position-to-word)对于识别并没有什么明显的作用,并且第一部分(word-to-word)和第四部分论文提出将位置信息与词嵌入信息分离开选择各自的权重矩阵来更新参数,提出的原因
127
0
1
transformer代码笔记----pre_process.py
摘要:import os import pickle from tqdm import tqdm from config import wav_folder, transcript_file, pickle_file from utils import ensure_folder def get_data
94
0
0
transformer代码笔记----transformer.py
摘要:import torch.nn as nn from .decoder import Decoder from .encoder import Encoder class Transformer(nn.Module): #定义类,继承父类nn.Module """An encoder-decoder
127
0
0
点击右上角即可分享
微信分享提示
深色
回顶
收起