聊聊GLM基座模型的理论知识

概述

大模型有两个流程：预训练和推理。

预训练是在某种神经网络模型架构上，导入大规模语料数据，通过一系列的神经网络隐藏层的矩阵计算、微分计算等，输出权重，学习率，模型参数等超参数信息。
推理是在预训练的成果上，应用超参数文件，基于预训练结果，根据用户的输入信息，推理预测其行为。

GLM模型原理的理解，就是预训练流程的梳理，如下流程所示：

input输入层会预处理输入数据，在预训练过程中，该输入数据，其实就是预先准备好的预料数据集，也就是常说的6B，130B大小的数据集。

掩码处理

GLM统一了自编码模型与自回归模型，主要是在该处理过程实现的。该过程也被成为自回归空格填充，这也是GLM模型的核心思想。该过程体现了自编码与自回归思想：
1、自编码思想：在输入文本中，随机删除连续的tokens，做成掩码[MASK]。
2、自回归思想：顺序重建连续tokens。在使用自回归方式预测缺失tokens时，模型既可以访问带掩码的文本，又可以访问之前已经被采样的spans。

输入可以被分成两部分：Part A是被损坏的文本，Part B由masked spans组成。
假设原始输入文本是，采样的两个文本片段是以及。那么mask后的文本序列是：，即Part A；、即PartB。
再对Part B的片段进行shuffle。每个片段使用填充在开头作为输入，使用填充在末尾作为输出。如论文中的图所示：

掩码处理时，会随机选择输入序列中的某些词语进行掩码（mask）处理。掩码的目的是让模型学习预测那些被掩码的词语。让模型能够在预训练过程中更好地学习语言规律和上下文信息。
掩码处理的流程如下：

输入数据采样：首先，从输入文本中随机采样多个片段，这些片段包含了多个需要被预测的词（即[mask]标记）。
掩码替换：在这些采样片段中，用[mask]标记替换掉部分词语，形成一个被掩码的文本。这样，模型需要根据已给出的上下文信息来预测被掩码的词语。
自回归预测：GLM模型采用自回归的方式，从已给出的片段中预测被掩码的词语。这意味着在预测[mask]中原来的词的同时，模型可以参考之前片段的信息。
上下文信息利用：为了让模型能够更好地理解上下文信息，GLM模型将被掩码的片段的顺序打乱。这样，模型在预测时需要参考更广泛的上下文信息，从而提高其语言理解能力。
预训练任务：通过这种方式，GLM模型实现了自监督训练，让模型能够在不同的任务（如NLU、NLG和条件NLG）中表现更好。

从结构化来思考，剖析下这个过程所涉及到的一些开发知识点。

随机抽样：在掩码处理中，需要从输入数据中随机选择一部分数据进行掩码。遵循泊松分布，重复采样，直到原始tokens中有15%被mask。
掩码策略：在GLM模型中，采用了自回归空白填充（Autoregressive Blank Infilling）的自监督训练方式。这需要根据掩码策略来生成掩码，如根据预先设定的规则来选择掩码的长度和位置。这个过程涉及到组合数学和离散数学的知识。
掩码填充：在生成掩码后，需要对掩码进行填充。在GLM模型中，采用了特殊的填充方式，如span shuffling和2D positional encoding。这个过程涉及到线性代数和矩阵运算的知识。
损失函数：在掩码处理过程中，需要根据损失函数来计算掩码处理的效果。在GLM模型中，采用了交叉熵损失函数来衡量模型在掩码处理任务上的表现。这个过程涉及到优化理论和数值分析的知识。

位置编码

在基于Transformer网络架构的模型中，位置编码是必不可少的一个处理，其作用简单来说就是在没有显式顺序信息的情况下，为模型提供关于词的相对位置的信息，以便让模型理解输入序列中的序列信息以及上下文信息。
位置编码在GLM中，通过采用一种称为"旋转位置编码"（RoPE）的方法来处理的。RoPE是一种相对位置编码技术，它能够有效地捕捉输入序列中不同token之间的相对位置信息。相较于传统的绝对位置编码，RoPE具有更好的外推性和远程衰减特性，能够更好地处理长文本。
在GLM中，使用二维位置编码，第一个位置id用来标记Part A中的位置，第二个位置id用来表示跨度内部的相对位置。这两个位置id会通过embedding表被投影为两个向量，最终都会被加入到输入token的embedding表达中。如论文中的图所示：