Transformer 2017 NIPS
重点:Attention Is All You Need
核心:Attention Is All You Need
Informer 2021 AAAI(Best Paper)
重点:Transformer + Sparse attention (稀疏)
核心:Sparse attention(ProbSparse attention)结构:只让key和关键的query进行稀疏的attention减少大量计算量,效率优化
Autoformer 2021 NIPS (清华大学机器学习团队)
重点:Transformer + 趋势季节分解(基于自相关)
核心:Series Decomposition 模块 + 多头注意力升级的Auto-Correlation Mechanism。
FEDformer 2022 ICML(阿里达摩院)
重点:Transformer + 趋势季节分解(基于频域)
核心:与Autoformer类似,在拆分趋势线和季节项的基础上,FEDformer使用傅里叶变换以及小波变换去加速attention模块。
Pyraformer 2022 Oral (蚂蚁)
重点:Transformer + Pyramidal Attention (金字塔)
核心:Pyramidal Attention,金字塔注意力机制,尺度间连边用于从原始序列中构建多分辨率特征,尺度内连边捕获在同一尺度下的相邻节点之间之前的依赖关系。
PatchTST 2023 ICLR(普林斯顿大学)
重点:Transformer + Patch(源于计算机视觉Vision Transformer)
核心:长时间序列分解为Patch进行建模,每个patch序列被单独映射到独立的embedding进行建模,而不是将多个变量融合到一个embedding建模。
D-Linear* 2023 AAAI
(*表示非Transformer类模型)
重点:质疑Transformers的预测实用性
核心:Transformers的时序性较差,且embedding忽略变量间物理关联,而D-Linear(Decomposition-Linear),用于处理具有趋势和季节性模式的数据能够获得同样好的结果。
CrossFormer 2023
重点:Transformer + Patch + Two-Stage Attention
核心:窗口划分分多个patch(类似patch-embdedding),第一阶段在时间维度进行attention,第二阶段在变量维度进行attention。(patch纬度)
iTransformer 2023 (清华大学机器学习团队)
重点:Transformer + inverted
核心:Temporal Token Embedding -> Variable Embedding,捕获各通道时间序列内全局信息的能力,具有变量间相关性。