目录
- 【图像超分】
- 【Transformer】
【图像超分】
[ICML 2024] See More Details: Efficient Image Super-Resolution by Experts Mining
论文链接:https://arxiv.org/pdf/2402.03412
代码链接:https://github.com/eduardzamfir/seemoredetails
从低分辨率(LR)输入重建高分辨率(HR)图像在图像超分辨率(SR)领域是一项重大挑战。尽管最近的方法已经展示了为各种目标定制复杂操作的有效性,但简单地堆叠这些不同的操作可能导致巨大的计算负担,从而影响其实际应用价值
。为了应对这一挑战,文中引入了SeemoRe,这是一种采用专家挖掘技术的高效SR模型。所提方法策略性地在不同层次上整合专家知识,采用了一种协作方法。在宏观层面,专家处理按等级和空间分布的信息特征,提供了全面的理解。随后,该模型通过利用一系列低秩专家的混合体,深入探讨秩选择的细微差别。通过借鉴专门从事对准确SR至关重要的不同关键因素的专家,所提模型更有利于揭示复杂的内部特征细节。这种协作方法让人联想到“看得更多”的概念,使所提模型能够在高效设置下以最小的计算成本实现最佳性能。
实验结果
【Transformer】
[NeurIPS 2024 视频Transformer] Don’t Look Twice: Faster Video Transformers with Run-Length Tokenization
论文链接:https://arxiv.org/pdf/2411.05222
代码链接:https://rccchoudhury.github.io/rlt/
由于输入标记的数量极其庞大,Transformer在视频训练上速度较慢,尽管许多视频标记会随时间重复出现。现有的去除这些无信息量标记的方法要么有显著的开销,抵消了任何加速效果,要么需要针对不同数据集和示例进行调整。我们提出了一种基于游程编码(run-length encoding)用于数据压缩的简单方法——运行长度标记化(Run-Length Tokenization,RLT),以加快视频Transformer的速度。RLT高效地找到并移除模型推理前随时间重复出现的补丁片段,然后用一个单独的补丁和一个位置编码来替换它们,以表示结果标记的新长度。我们的方法具有内容感知性,无需针对不同数据集进行调整,并且快速,只带来微小的开销。RLT在训练中带来了显著的速度提升,将视频Transformer微调的墙钟时间减少了30%,同时保持了基线模型的性能。RLT还可以在无需任何训练的情况下工作,仅用0.1%的准确性下降就将模型吞吐量提高了35%。RLT以每秒30帧的速度将训练加速超过100%,并且在较长的视频数据集上,可以将标记数量减少多达80%。
实验结果