Wavlm
asr:自动语音识别
transformer关键特点包括:
- 自注意力机制:使模型能够同时考虑输入序列中的所有位置,而不是像循环神经网络(RNN)或卷积神经网络(CNN)那样逐步处理。
- 多头注意力:扩展自注意力机制,允许模型并行处理不同的信息子空间,以更好地捕捉不同类型的关系。
- 堆叠层:通常由多个相同的编码器和解码器层堆叠而成,有助于模型学习复杂的特征表示和语义。
- 位置编码:由于Transformer没有内置的序列位置信息,它需要额外的位置编码来表达输入序列中单词的位置顺序。
Transformer模型的结构可以分为几个主要部分:编码器(Encoder)和解码器(Decoder)。下面我将详细分析这些组成部分。
编码器(Encoder)编码器由多个相同的层(通常是6个)组成,每层包括两个主要的子层:
• 自注意力(Self-Attention)层:
• 这个层允许模型在序列的不同位置之间动态分配注意力,从而捕捉长距离依赖关系。
• 它包含三个操作:查询(Q)、键(K)和值(V)的矩阵乘法,然后进行缩放点积操作,最后是注意力权重的计算和值的加权求和。
• 前馈网络(Feed-Forward Network,FFN)层:
• 这是一个简单的全连接层,通常由两个线性变换组成,中间有一个ReLU激活函数。
• FFN层对每个位置的表示进行独立处理,不涉及序列中其他位置的信息。每个子层后面都跟着一个残差连接和层归一化(Layer Normalization)。残差连接有助于解决深层网络中的梯度消失问题,而层归一化则有助于加速训练并提高模型的稳定性。
解码器(Decoder)解码器同样由多个相同的层组成,每层包括三个主要的子层:
• 遮蔽自注意力(Masked Self-Attention)层:
• 与编码器中的自注意力层类似,但加入了遮蔽机制以防止位置信息泄露,即在序列的当前位置只能看到之前的元素,不能看到未来的元素。
• 这确保了解码器在生成序列时的自回归特性。
• 编码器-解码器注意力(Encoder-Decoder Attention)层:
• 这个层允许解码器的每个位置关注编码器的输出,从而将输入序列的信息传递到输出序列。
• 它同样使用查询和键的矩阵乘法,然后进行缩放点积操作,最后计算注意力权重和加权求和。
• 前馈网络(FFN)层:
• 与编码器中的FFN层相同,包含两个线性变换和ReLU激活函数。每个子层后面同样跟着一个残差连接和层归一化。
位置编码由于Transformer模型本身不包含任何关于序列顺序的信息,因此需要额外的位置编码来提供这种信息。位置编码通常是固定的,可以是正弦和余弦函数的组合,也可以是可学习的参数。
总结Transformer模型通过自注意力机制和前馈网络层,以及残差连接和层归一化,实现了对序列数据的高效处理。编码器和解码器的结构设计使得模型能够捕捉长距离依赖关系,并且能够处理复杂的序列到序列任务。这种结构的灵活性和强大的表示能力是Transformer在各种自然语言处理任务中取得成功的关键。
ssl:self_supervised learning
huBERT(Hidden Units Bidirectional Encoder Representations from Transformers):隐藏单元双向编码器
SOTA性能,即State-of-the-Art(当前最高水平)
MFCC(Mel Frequency Cepstral Coefficients),即梅尔频率倒谱系数
Wav2Vec(Waveform-to-Vector)模型的核心在于其无监督的预训练方式。它使用了一个简单的多层卷积神经网络进行预训练,并提出了一种噪声对比学习二分类任务(noise contrastive binary classification task),从而使得Wav2Vec可以在大量未标注的数据上进行训练。
GELU激活层,全称为Gaussian Error Linear Unit(高斯误差线性单元)激活层
EEND-EDA可能指的是在端到端(End-to-End,EEND)神经网络模型中用于电子设计自动化(Electronic Design Automation,EDA)
生成学习是一种基于模型的方法,它试图从训练数据中学习出数据的生成过程或分布。在生成学习中,模型通常被定义为一个概率模型,用于描述数据的生成方式。
判别学习是一种直接学习输入到输出映射的方法,它关注于如何根据输入特征来预测输出类别或值。
多任务学习是一种同时学习多个相关任务的方法,它利用任务之间的相关性来提高模型的泛化能力。
核心思想:多任务学习通过共享知识或参数来同时优化多个任务。在训练过程中,模型会尝试捕捉不同任务之间的共同特征或规律,从而能够同时提高多个任务的性能。
CPC,全称为Contrastive Predictive Coding(对比预测编码)
LM融合 是一种将多个预训练语言模型(LLM)合并为一个模型的技术。这种技术的核心思想是将不同模型的参数在参数粒度上进行合并,从而创建一个新的融合模型。LM融合的关键优势在于能够在较低的计算成本下获取类似甚至更优异的效果,相比从头开始训练一个新模型。