对 RAG(Retrieval-Augmented Generation) 进行评测,并结合 Prompt Engineering(提示工程) 进行测试,需要从多个维度评估其性能,包括 检索质量、生成质量、Prompt 鲁棒性 等。以下是系统的评测方法和测试方案:
1. RAG 评测核心指标
评测 RAG 系统时,通常关注以下几个方面:
(1) 检索模块评测
- 召回率(Recall):检索到的相关文档占所有相关文档的比例。
- 准确率(Precision):检索到的文档中真正相关的比例。
- Top-K 命中率:前 K 个检索结果是否包含正确答案。
- 检索速度(Latency):检索所需时间,影响用户体验。
(2) 生成模块评测
- 事实准确性(Factuality):生成内容是否与检索到的信息一致,避免幻觉(Hallucination)。
- 流畅度(Fluency):生成文本是否自然、通顺。
- 相关性