您的位置:首页 > 健康 > 美食 > 微信公众号第三方平台有哪些_自贡网站制作公司_绍兴seo优化_广告公司广告牌制作

微信公众号第三方平台有哪些_自贡网站制作公司_绍兴seo优化_广告公司广告牌制作

2025/1/3 5:56:53 来源:https://blog.csdn.net/u011160113/article/details/144749110  浏览:    关键词:微信公众号第三方平台有哪些_自贡网站制作公司_绍兴seo优化_广告公司广告牌制作
微信公众号第三方平台有哪些_自贡网站制作公司_绍兴seo优化_广告公司广告牌制作

前言

        在之前的文章中,我们已经了解过一些Cache相关的内容:比如KVCache、PageAttention、GPTCache等。这些Cache基于推理特点或业务特点对关键数据进行Cache, 从而加速端到端应用的生成过程。本文将介绍一个最新的Cache:RAGCache,它是针对RAG应用的特点设计了一套分层的缓存系统,通过它可以提升应用的吞吐量,加速了应用的处理。

背景

RAG 基本流程

        为了最小成本的减少模型幻觉,给模型注入新的知识,业界目前最通用的方法是使用RAG技术来对模型训练时未学习的知识进行注入。大致流程如下(更详细的介绍参考之前的文章):

LLM 推理过程

        LLM的推导一般分为两个步骤:prefill和decode。在prefill阶段,会对输入的token计算KV tensor(如图所示, K matrix和V matrix中的每个行向量表示一个token的语义表示)。之后,在decode阶段,会根据之前的KV向量信息不断推导next token的。可以看到,在prefill阶段是非常耗时的,因为他需要为请求中的所有token生成向量。请求越长,处理时间越长。尤其在RAG的场景下,会携带外部检索到的更多的文档信息,进一步增大了处理时间。

        由于新知识注入,会将原问题进行扩充,从而导致LLM生成时引入长序列生成问题(序列越长,生成的处理时间越长),导致生成答案时的延迟增加。

优化思路

        生成步骤的主要耗时主要在attention模块中处理长序列的KV tensor中,那一个自然而然的优化想法就是:把之前检索过的文档的KV tensor的信息缓存下来。如果cache命中了,那么直接使用cache中的kv tensor信息,从而避免重新

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com