09 2022 档案
Fastformer: Additive Attention Can Be All You Need
摘要:创新点: 本文根据transformer模型进行改进,提出了一个高效的模型,模型复杂度呈线性。 主要改进了注意力机制,出发点在于降低了注意力矩阵的重要程度,该方法采用一个(1*T)一维向量替换了原始T*T大小的注意力矩阵。 注意力结构图: 在这里,输入同样通过不同的线性映射得到Q,K,V,然后通过Q
Branchformer
摘要:创新点: 为了改善模型性能,在ASR任务中一种有效的方法是融合全局和局部特征,为了使模型更加灵活,本文提出的方法不同与Comformer。 通过实验发现,模型对局部和全局特征提取在每一层发挥了不同的作用,并发现不同层局部和全局重要程度不同。 模型结构图: 通过模型结构图可以发现,Branchform
关于对Comformer中卷积层的理解
摘要:"""ConvolutionModule definition.""" from torch import nn class ConvolutionModule(nn.Module): """ConvolutionModule in Conformer model. Args: channels (
一维卷积
摘要:torch.nn.Conv1d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True) 主要参数说明: in_channels:在文本应用中,即为词向量的维度 out_