GLM：通用语言模型

ChatGPT已经火了一段时间了，国内也出现了一些平替，其中比较容易使用的是ChatGLM-6B：https://github.com/THUDM/ChatGLM-6B ，主要是能够让我们基于单卡自己部署。ChatGLM的基座是GLM: General Language Model Pretraining with Autoregressive Blank Infilling论文中提出的模型，接下来我们来看看。

论文名称：GLM: General Language Model Pretraining with Autoregressive Blank Infilling

论文地址：https://aclanthology.org/2022.acl-long.26.pdf

代码地址：https://github.com/THUDM/GLM

介绍

预训练语言吗模型大体可以分为三种：自回归（GPT系列）、自编码（BERT系列）、编码-解码（T5、BART），它们每一个都在各自的领域上表现不俗，但是，目前没有一个预训练模型能够很好地完成所有任务。GLM是一个通用的预训练语言模型，它在NLU（自然语言理解）、conditional（条件文本生成） and unconditional generation（非条件文本生成）上都有着不错的表现。

GLM的核心是：Autoregressive Blank Infilling，如下图1所示：

即，将文本中的一段或多段空白进行填充识别。具体细节如图2所示：

说明，对于一个文本：\(x_{1},x_{2},x_{3},x_{4},x_{5}\)，空白长度会以\(\lambda=3\)的泊松分布进行采样。重复采样直到空白token的总数目占文本token数的15%。将文本分为两部分，A部分由原始token和[MASK]组成，B部分由空白token组成，最终将A部分和B部分进行拼接，同时B部分的每一个空白会被打乱，这样在自回归预测每个token的时候可以看到上下文的信息（具体通过注意力掩码来实现）。需要注意的是位置编码是2D的，位置编码1用于表示token在文本的位置，位置编码2用于表示原始文本和每一个空白中token的顺序。