1、主要解决的痛点
自注意力机制的计算效率问题
2、解决方案
基于参数化状态空间模型进行设计
3、优缺点
- 优点:在长文本建模效率方面比Transformer有了大幅改进,同时保持了较好的序列建模能力
4、参数化状态空间模型
- 介绍:一种动态时域模型,可以看作是循环神经网络和卷积神经网络的结合体
- 特点:
- 利用卷积计算对输入进行并行化计算
- 利用前一个词元即可机型自回归预测
- 常用来对长序列数据进行建模
- 变种
- 目的:保留计算效率基础上提升语言建模能力
- 代表性模型:
- Mamba
- 原理:引入基于当前输入的信息选择机制
- 优点:有更好的文本建模性能
- 缺点:无法利用快速傅里叶变换实现高效卷积计算
- RWKV
- 原理:在每层计算中,使用词元偏移来代表词元表示
- 优点:继承了Transformer的文本建模优势和RNN的计算效率
- 缺点:训练过程中缺乏并行计算能力
- RetNet
- 原理:使用多尺度保留机制来代替多头自注意力模块
- 优点:同时保留了循环计算和并行计算优点
- Hyena
- 原理:使用长卷积模块来替换Transformer架构中的注意力模块,从而借助卷积的快速傅里叶变换来提高计算效率
- Mamba