大语言模型-GLM-General Language Model Pretraining

一、背景信息：

GLM是2020-2021年由智谱AI研究并发布的预训练语言模型。
GLM是一种基于自回归空白填充的通用预训练语言模型。
GLM 通过添加二维位置编码和允许任意顺序预测空白区域，改进了空白填充预训练，在NLU任务上超越了 BERT 和 T5。
GLM的网络架构使用的是多层Transformer Decoder改的结构。

二、整体结构：

Pre-Norm，前归一化：将Layer Normalization步骤放置在各模块之前进行。
DeepNorm，归一化函数的调整：GLM的Layer Normalization使用了DeepNorm方式。
RoPE，位置编码的调整： GLM不再位置向量合成输入向量，而是在每次Attention时进行RoPE的位置向量编码。
GLU， FFN层激活函数调整：FFN使用具有GeLU激活的GLU作为激活函数。

三、GLM训练

GLM是一种基于自回归空白填充的通用预训练语言模型。

（1）自回归空白填充

自回归空白填充目标

在这里插入图片描述

给定输入 X = [x1, x2, x3, x3, x5, x6]
将选择掩码的片段 [x3], [x5, x6] 进行MASK，得到 Part A，表示损坏后的文本（见图中的(a) ）
将选择掩码的片段抽取出，并且随机排序 / shuffle，得到 Part B，表示被掩盖、需要填充的文本（见图中的(b) ）
将 PartA 与 PartB 拼接成一个sequence，Part A部分采用双向注意力，PartB部分采样自回归预测。（见图中的© ）

从λ = 3的泊松分布中随机抽取MASK的片段长度。反复采样新的跨度片段长度，直到至少15%的原始令牌被屏蔽。根据经验，我们发现15%的比例对于下游NLU任务的良好表现至关重要

attention mask的设计

Part A作为初始输入，其tokens之间应该互相可见，但是不能见到被MASK的（下文即Part B中的tokens）
PartB中的tokens肯定是要能看见Part A的tokens的（文本生成需要能看到上文）
PartB中应该能见到历史生成的token，但不可见尚未生成的token。
这里其实是组合了双向的attention（Part A）和causal attention(Part B)。

（2）多任务预训练

对词汇级别的短文本区域进行Mask，适合于 NLU 任务; 要达到NLU任务目标的同时具备一定的长文本生成能力，设定了下面两个任务训练目标，来同时优化文本任务与空白填充任务。

• 文档级别。随机抽样一个片段，其长度从原始长度的50％到100％的均匀分布中抽样。该目标旨在进行长文本生成。

• 句子级别。限制掩蔽片段必须是完整的句子。随机抽样多个片段（句子）以覆盖15％的词汇。此目标旨在进行seq2seq任务，其预测通常为完整的句子或段落。

这两个新目标与原始目标相同。唯一的区别在于遮掩片段的数量和长度。

Reference

1、GLM: General Language Model Pretraining with Autoregressive Blank Infilling