您的位置:首页 > 新闻 > 会展 > 苏州营销型网站建设方法_动态设计参考网站_爱站seo工具_公司软文

苏州营销型网站建设方法_动态设计参考网站_爱站seo工具_公司软文

2025/1/11 0:49:29 来源:https://blog.csdn.net/m0_46510245/article/details/144816778  浏览:    关键词:苏州营销型网站建设方法_动态设计参考网站_爱站seo工具_公司软文
苏州营销型网站建设方法_动态设计参考网站_爱站seo工具_公司软文

Key-Value (KV)缓存已成为大语言模型(LLM)长文本处理的关键性能瓶颈。当前研究尚未充分关注解码阶段的优化,这一阶段具有同等重要性,因为:

1、对需要完整上下文的场景,预填充阶段的过度压缩会显著降低模型的推理理解能力

2、在长输出推理任务中存在重要特征的显著偏移现象

这篇论文提出SCOPE框架,通过分离预填充与解码阶段的KV缓存优化策略,实现高效的缓存管理。该框架保留预填充阶段的关键KV缓存信息,同时引入基于滑动窗口的新型策略,用于解码阶段重要特征的高效选取。

关键发现

KV缓存的推理过程分析

LLM的每次请求包含两个独立阶段:预填充阶段处理完整输入提示以生成初始输出标记;解码阶段通过迭代方式逐个生成后续输出标记。

预填充阶段分析

下图展示了在完整解码缓存条件下,三个任务在不同预填充阶段压缩比率下的性能表现:

Long-Bench中的PassageRetrieval-en和HotpotQA任务表现出显著的压缩容忍度:即使在20%的预填充阶段压缩比率下,模型仍能保持与完整缓存相近的性能水平,证实了模型在高压缩率下维持上下文理解能力的鲁棒性。然而在LONGGENBENCH的GSM8k+任务中,同样的20%压缩率导致准确率下降约95%

实验结果表明:对于依赖完整上下文的推理任务,预填充阶段的过度压缩会导致显著的性能损失

解码阶段分析

下图描述了在解码步骤1、300和500时,基于前15%注意力分数选取的重要特征在0、13和31层的位置分布:

观察发现,各层中保留的重要特征主要源自解码阶段生成的KV缓存,在长输出任务中,随着输出序列延长,特征偏移现象愈发显著。这一现象要求在保持预填充阶段识别的重要特征的同时,对解码阶段新出现的重要特征实施有效管理。数据表明,长文本生成的解码阶段采用贪婪算法可能引发重要特征的显著偏移

KV缓存预算分配优化

下图呈现了LONGGENBENCH中GSM8k+样本第13层的注意力热力图,以及注意力分数与生成标记位置的对应关系:

图中最左侧和最右侧分别对应预填充和解码阶段。对于需要并行处理多个问题的推理任务,准确定位当前预测位置至关重要。如图所示,这些关键信息可通过贪婪算法识别的重要特征有效捕获。预填充和解码阶段的KV缓存预算需要独立分配以实现最优性能。这一发现启发了SCOPE框架的设计理念:通过解耦预填充和解码阶段的压缩过程,实现KV缓存预算的精确分配,在保留预填充阶段全部KV缓存的同时,优化缓存预算的重分配效率

方法论

KV缓存压缩机制重构

初始化过程

KV缓存压缩的核心在于基于预设缓存预算进行动态调整。本文构建了缓存池Φ,其包含两个子集:存储预填充阶段KV缓存的Φp和存储解码阶段KV缓存的Φd。缓存池在时间步t实时更新,记为Φt。采用广泛验证的贪婪算法函数ΨK(Att)从给定注意力权重Att中筛选Top-K KV缓存

预填充阶段设计

定义输入提示张量P ∈ RM×D,其结构为P = {P1,P2, . . . ,PM},其中:

  • Pi表示第i个标记的嵌入向量
  • M为输入标记数量
  • D为模型隐藏维度

键值张量的计算公式如下:

其中:

  • WK,WV ∈ RD×D分别为键和值的投影权重矩阵
  • KV对表示为KPVP
  • 注意力权重AttP通过P和KPVP计算得出,预填充阶段的压缩表达式:

其中:

·表示张量连接操作

函数Ψα1(AttP)从AttP[: −α2]中选择具有最高Top-α1注意力权重的KV缓存

解码阶段实现

解码阶段复用预填充阶段的KV缓存,并通过序列生成过程持续更新,对于时间步t处的新标记张量Xt,t∈{1,T },键值计算如下:

过程中,KtVt与缓存池Φ中的历史KV缓存进行连接,形成当前时刻的KV对。随后与查询张量Xt计算得到注意力权重Attt

  • 本方法与现有KV压缩方案的核心区别在于Φp和Φd在缓存池Φ中的动态分配机制

SCOPE框架详解

针对解码阶段设计了三种优化策略:滑动窗口、自适应调整和不连续更新,这些策略均专注于Φd的优化

滑动窗口机制

通过动态调整解码必要历史窗口β1和解码局部窗口β2实现解码阶段的KV缓存压缩:

  • β1负责捕获当前预测位置的上下文信息
  • β2保存与历史标记高度相关的全局特征

滑动策略在t > M + β1 + β2时触发,通过函数Ψβ1 (Attt[α1 + α2 : −β2])实现对Φd的定向更新,同时保持Φp不变。该机制通过限制选择函数Ψ的操作范围(从α1 +α2开始的Attt),有效规避了预填充阶段注意力权重的干扰

** 自适应调整策略**

针对解码生成标记长度较短的情况,引入动态调整机制,避免过长的解码必要历史窗口β1导致的资源浪费。设计了基于时间步骤t和最大长度T的自适应函数,用于动态调整β1长度,其中T ≫ β1 + β2。窗口大小从基准值β2起始,随时间步t线性增长:

特征:

  • 当t < T时,Φdt的预算规模为β2+(t−β2)·β1/ T−β2
  • 该设计有效优化内存利用率,因比率(t−β2 (T−β2)恒小于1
  • t达到T时,Φdt规模收敛于β1 + β2
  • 此调整机制与LLM的自回归编码特性高度契合,在不引入额外超参数的前提下提升资源利用效率

不连续更新机制

传统策略中,Top-K选择操作ΨK(Att)需执行T − β2次,这种频繁的GPU I/O操作带来显著性能开销。基于连续查询倾向于选择相似键的特性,提出不连续更新策略:

1、将Top-K选择操作ΨK(Att)的执行频率优化为每T−β2/β1间隔执行一次ζ

2、相比于传统的逐步执行方式,显著降低了计算开销

实验评估

实验环境配置

基于两个主流开源大语言模型构建实验平台:

  • LLaMA-3.1–8B-Instruct
  • Mistral-7B-Instruct-v0.3

Φp参数配置:

  • LongGenBench-4K场景:α1 + α2 = 2048(约占输入长度60%)

  • LongGenBench-8K场景:α1 + α2 = 4096(约占输入长度60%)

  • α2统一设置为8

  • β1 + β2参数设置:- 4K输出配置:512- 8K输出配置:1024- β2固定为256,用于适配答案中的推理链(Chain-of-Thought)长度,避免序列过短引发的性能退化

性能评估结果

基准系统对比分析

下表展示了在LONGGENBENCH基准测试中,基于LLaMA-3.1–8B-Instruct的SCOPE三种策略与现有方法的性能对比:

实验结果分析:

SCOPE框架的三种策略在所有解码压缩方案中均实现最优性能,其中针对内存使用和传输优化的不连续策略表现尤为突出。在高难度GSM8K+/GSM8K++任务上,SCOPE通过保留预填充阶段KV缓存的策略展现显著优势,而其他压缩方法出现明显的性能衰减。PyramidInfer与H2O的性能差异不显著,表明在长序列输出任务中,层间稀疏性特征的影响相对有限

预填充方法集成验证

下表呈现了LLaMA3.1-8B在LONGGENBENCH-4K的GSM8K+任务上的方法集成实验数据:

关键发现:

  • 部分优化策略在仅使用65%原始KV缓存的情况下,实现了超越完整缓存的性能表现
  • PyramidKV(SnapKV的变体)通过跨层预算重分配的尝试未能带来显著改善,验证了前期实证研究结果
  • 预填充阶段保留的KV缓存表现出类似StreamingLLM中"注意力汇聚点"的特性

深入分析

必要特征损失的缓解效果

H2O等统一压缩方法由于重要特征偏移导致关键KV缓存损失,影响了上下文理解能力,下图描述了预测位置与模型性能的关联关系:

数据显示H2O在后期预测中出现显著性能下降,而SCOPE的三种策略有效缓解了这一问题,证实了预填充KV缓存保留策略的有效性

关键参数影响分析

解码阶段的两个核心参数:

  • KV缓存预算 β1+β2
  • 特征选择算法 ΨK(Att)

下图展示了基于两种主流top-K选择算法对预算参数进行缩放的实验结果:

与预填充阶段相比,解码阶段展现出更强的压缩容忍度:25%的压缩率仅导致15%的性能降低,而类似压缩率在预填充阶段会导致GSM8k+任务性能的显著下降

系统效率评估

基于滑动窗口策略的自适应和不连续优化显著提升了内存效率,具体数据如下表:

相较于完整缓存和单一预填充压缩方案,本文提出的方法和统一压缩策略通过降低KV缓存存储量,有效缓解了内存压力,自适应策略通过动态预算调整机制进一步优化了系统性能。

泛化能力验证

下图展示了在β1 + β2 = 512配置下,∞BENCH中En.Sum任务的实验结果:

实验表明SCOPE的三种策略均优于完整缓存配置,充分验证了该框架的泛化能力

局限性分析

SCOPE框架通过分离预填充和解码阶段实现长文本生成任务的优化,在两个阶段均采用Top-K算法进行特征选择。当前框架存在以下待改进方向:

1、预填充阶段仍沿用传统top-K算法,未来研究可探索分块处理或其他新型技术,以提升历史标记的估计精度

2、解码阶段每步执行Top-K操作导致频繁的GPU I/O开销。虽然不连续策略在一定程度上优化了操作频率,但仍可通过减少I/O数据量进一步降低系统延迟

3、当前SCOPE主要验证了文本模态的长输出任务优化效果。框架具有扩展到视觉领域的潜力,特别是在多图像生成等需要大量KV缓存的任务场景

总结

SCOPE框架针对LLM长文本生成中的KV缓存优化问题提供了系统性解决方案

通过实验观察发现两个关键问题:

预填充阶段的过度压缩对推理能力造成显著影响,解码过程中存在重要特征的偏移现象

SCOPE通过以下机制解决上述问题:

保持预填充阶段必要的KV缓存完整性;引入滑动窗口策略实现解码阶段KV缓存的高效管理

大规模实验验证表明:

SCOPE仅使用35%原始内存即可达到接近完整KV缓存的性能水平,并且保持了与现有预填充压缩方法的良好兼容性

https://avoid.overfit.cn/post/e5ac0b501a1e4a4fb62eedcf49cd8675

作者:SACHIN KUMAR

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com