20240623日志：大模型压缩-sliceGPT

context

1. 剪枝方案图释
2. 正交矩阵Q

1. 剪枝方案图释

在这里插入图片描述

Fig. 1.1 剪枝方案

图中的阴影是表示丢弃掉这部分数据。通过引入正交矩阵 $Q$ 使 $\mathrm{Q}^\top\mathrm{Q}=\mathrm{Q}\mathrm{Q}^\top=\mathrm{I}$ ，来大量缩减 $X$ 的列数和 $W$ 的行数。
由于 $Q$ 是正交矩阵，有 $\|\mathbf{Q}x\|=\sqrt{x^\top\mathbf{Q}^\top\mathbf{Q}x}=\sqrt{x^\top x}=\|x\|$ ，所以 $Q$ 与 $x$ 相乘不会影响 $x$ 的范数。
在一般情况下，假设 $\mathbf{X}_{\ell}$ 是transformer中一个块的输出，在经过RMSNorm（对每一行 $x\leftarrow \frac{\mathbf{X}}{\left|\left|\mathbf{X}\right|\right|}$ 处理），然后 $\mathrm{RMSNorm}(\mathbf{X}_{\ell})$ 作为下一块的输入。若引入矩阵 $Q$ ，则有 $\mathrm{RMSNorm}(\mathbf{X}_\ell)=\mathrm{RMSNorm}(\mathbf{X}_\ell\mathbf{Q})\mathbf{Q}^\top$ ，所以实际上引入 $Q$ 不改变transformer的结构。对于transformer中的每一attention或FFN层都有线性层，同时由于transformer中有残差连接（图中的 $\textcircled{+}$ 操作），这里把矩阵 $Q$ 引入每一块的线性层，所以需要把矩阵 $Q$ 引入到所有之前的层（一直到编码阶段）和所有之后的层（一直到LM头）。
令 $\mathbf{W}_{in}^\ell$ 和 $\mathbf{W}_{out}^\ell$ 为transformer的第 $\ell$ 块的线性层的权重矩阵， $\mathbf{b}_{in}^\ell$ 和 $\mathbf{b}_{out}^\ell$ 为相对应的偏置， $\mathbf{W}_{embd}$ 和 $\mathbf{W}_{head}$ 为编码和头矩阵， $Q$ 为 $D$ 维矩阵，则可以用以下矩阵来模型不变性变换
$\begin{aligned}\tilde{\mathbf{W}}_{embd}&=\mathbf{W}_{embd}\mathbf{Q} ,&&\text{(1)}&&\tilde{b}_{out}^{\ell}=\mathbf{Q}^{\top}b_{out}^{\ell} ,&&\text{(4)}\\\tilde{\mathbf{W}}_{in}^{\ell}&=\mathbf{Q}^{\top}\mathbf{W}_{in}^{\ell},&&\text{(2)}&&\tilde{\mathbf{W}}_{head}=\mathbf{Q}^{\top}\mathbf{W}_{head} .&&\text{(5)}\\\tilde{\mathbf{W}}_{out}^{\ell}&=\mathbf{W}_{out}^{\ell}\mathbf{Q} ,&&\text{(3)}\end{aligned}$ 偏置矩阵保持不变 $\tilde{b}_{in}^{\ell}=b_{in}^{\ell},\tilde{b}_{head}=b_{head}$
文章主题思想如图Fig. 1.2
在这里插入图片描述

Fig. 1.2 图解slicegpt（三张图从左到右分别是a、b和c）

图中，(a)中的 $W_Q$ 、 $W_K$ 和 $W_V$ 是注意力中的QKV操作， $W_V$ 表示注意力机制的输出矩阵， $\mathbf{M}=\mathbf{I}-\frac{1}{D}\mathbf{1}\mathbf{1}^{\top}$ 是用来使矩阵 $X$ 中的每一个元素拉回到0上下，与下一步的 $x\leftarrow \frac{\mathbf{X}}{\left|\left|\mathbf{X}\right|\right|}$ 共同完成归一化处理， $W_1$ 和 $W_2$ 是MLP操作。(b)与（c）中的 $(\alpha)$ 就是diag( $\alpha$ )，矩阵 $(\alpha^{'})$ 来自前一块。向量 $\alpha$ 和偏置 $\beta$ 在每个LayerNorm实例上独立学习。diag( $\alpha$ )是一个矩阵操作，表示将一个向量 $(\alpha)$ 作为对角线元素创建一个对角矩阵。
最后移除一些不重要的行和列。

2. 正交矩阵Q

使用主成分分析（PCA）来求解 $Q_{\ell}$ （transformer中第 $\ell$ 块），在训练集中抽取一些数据作为校准数据，喂给模型用来从前到后逐层提取正交矩阵。对于校准数据集中的 $i$ 条数据，使模型中第 $\ell$ 层输出为 $X_{\ell,i}$ ，则有
$\mathrm{C}_{\ell}=\sum_{i}\mathrm{X}_{\ell,i}^{\top}\mathrm{X}_{\ell,i}$ 则 $Q_{\ell}$ 是 $\mathrm{C}_{\ell}$ 的降序排列特征值的特征矩阵。

20240623日志：大模型压缩-sliceGPT

context

1. 剪枝方案图释

2. 正交矩阵Q

最新新闻

热搜词