14.8.1 从上下文无关到上下文敏感

最后一段话各个句子的意思：

ELMo将来自预训练的双向长短期记忆网络的所有中间层表示组合为输出表示：ELMo（Embeddings from Language Models）通过双向长短期记忆网络（BiLSTM）生成上下文敏感的词表示，其核心思想是结合双向LSTM所有层的中间表示，形成动态的词向量。具体解释如下：
- 1. 双向LSTM的多层结构
  - ELMo 使用 多层双向LSTM 进行预训练，每个方向（前向和后向）包含多个隐藏层。
  - 前向LSTM：从左到右处理句子，捕捉当前词与上文的关系。
    后向LSTM：从右到左处理句子，捕捉当前词与下文的关系。
  - 示例结构：假设双向LSTM有3层，则每个词会生成3层前向隐藏状态和3层后向隐藏状态。
- 2. 中间层表示的含义
  每一层LSTM的隐藏状态（hidden states）捕捉不同粒度的语言信息：
  - 底层（靠近输入）：侧重局部语法特征（如词性、形态）。
    示例：在句子“He banks on the river”中，底层可能捕捉到“banks”作为名词（河边）的语法信息。
  - 高层（靠近输出）：侧重全局语义特征（如词义、上下文关系）。
    示例：同一句子中，高层可能捕捉到“banks”在此处指“河岸”而非“银行”。
ELMo的表示将作为附加特征添加到下游任务的现有监督模型中，例如通过将ELMo的表示和现有模型中词元的原始表示（例如GloVe）连结起来：ELMo（Embeddings from Language Models）的嵌入（表示）将被用作额外的输入特征，融入到下游特定任务（比如文本分类、命名实体识别等）原本的有监督学习模型中。
具体来说，比如在一个原本使用如 GloVe（一种为单词生成固定词向量的模型）来表示词元（token，即文本中的单词或者字符）的模型中，现在会将 ELMo 生成的词元嵌入和 GloVe 的词元嵌入进行连接（拼接）操作，使每个词元的表示由这两个部分共同构成。这样可以整合 ELMo 的语境动态信息和 GloVe 的预定义静态信息，从而提升下游任务模型对词义语境的理解能力。
在加入ELMo表示后，冻结了预训练的双向LSTM模型中的所有权重：这句话的意思是：在将 ELMo 的表示（即来自语言模型的词嵌入）加入到下游任务的模型中之后，对预训练 ELMo 模型中使用的双向 LSTM 网络中的所有权重参数进行了固定，使其在训练过程中保持不变，不参加下游任务的反向传播训练过程中的更新。
冻结权重的主要目的是保留预训练模型从大量数据中学习到的语言知识和表示（这些知识对下游任务是有价值的），同时避免在下游任务训练时因数据集较小、任务目标与预训练目标不完全一致等情况，导致预训练的权重被过度调整或遗忘，进而影响整体性能。此外，冻结权重还可以减少下游任务训练时的参数数量，降低计算成本，加快训练速度。