您的位置：首页 > 财经 > 产业 > AI实践与学习8-AI Agent Workflow助力解题和验证答案置信度

AI实践与学习8-AI Agent Workflow助力解题和验证答案置信度

2025/2/25 6:46:35 来源：https://blog.csdn.net/qq_24654501/article/details/141718987 浏览: 次关键词：AI实践与学习8-AI Agent Workflow助力解题和验证答案置信度

背景

之前在试着提高解题正确率，目标100%，发现外部知识不足仅依靠大模型的话比较困难。而试题人工生产成本巨大。

本质因为大模型生成内容会有幻觉特点，也就是说解答的试题正确性不太好评判，直接解答试题生产场景不太可控。

后面考虑调用OpenAI解题的时候，像xxx那样通过输出置信度来帮助判断答案的正确性 or 其他形式只要能保证LLM生成答案是可靠（程序判断）的。

目录

RAG知识库现状
测评1
- 初次测评结果
- 分析与优化
- 优化后测评
测评2
测评3

RAG知识库现状

想要一定程度避免解题内容为幻觉，必须依靠外部知识（RAG知识库）。

可以考虑构建Agent Workflow用于幻觉检查，只输出依靠RAG之后有依据一定正确的答案和解析，不确定的输出如 “当前AI Agent 没有十足把握生成正确答案…” 而判断的依据就是根据RAG、web search的知识。

测试数据量：RAG知识库使用ES的 qbm_rag_ques_knowledge，高中英语单选题型数据量184532。
知识格式：【题干】xxx，【答案】：xxx，【解析】：xxx。

测评1

随机选取100道高中英语单选测试集，使用GPT-4o-mini模型

构建Agent Workflow，优化流程，优化提示词。

AI解题包含幻觉检查的Agent.png

初次测评结果

test-ai-answer-result-gpt4o-mini-check-hallucination.json
幻觉检查、答案评估输出 “AI Agent暂时没有十足的把握确定答案…” 的试题有31个。
通过幻觉检查、答案确定通过的输出答案的题69个，其中错误的4个

2267372320546816
2267372320530432
2265225605718017
2238952535252993

分析与优化

经过分析BAD CASE优化点

优化知识库质量：知识库剔除不包含没有解析的试题 or 文档评分的时候调整提示词将该文档判断为不相关，重建courseId=28的知识库，总数据量196235，去除低质量知识后184532。
优化流程结点：web search的内容也需要grade_documents 和 hallucination_grade，发现网络召回的内容还是会干扰，比如只是语意相关，会干扰解题，因此取消web search节点。
重排序：取消莱文斯坦算法第二次重拍，因为不一定要求是题干相似的题。
优化RAG召回：增加另外的召回思路，之前使用的是单独MLT，现在加入选项内容关键字搜索，如果MLT召回内容经过评分后不相关，就进行第二次关键字召回。
…

优化后的流程节点

1、取消web search节点：web search搜索大概率是语意相关的，召回试题的概率不是很大，语意相关的知识意义不大。

取消了web search 并修改为更严格的提示词，通过幻觉检查的数量急剧减少。

2、加另外一种关键字召回

3、优化无用流程：后发现如果召回的知识被判断为不相关，直接结束就行，不在generate生成答案解析，节省token和时间。

优化后再次测评

[test-ai-answer-result-gpt4o-mini-check-hallucination-without-websearch（4）.json]

幻觉检查通过的13道试题，均解答正确

测评2

随机选取200道高中英语单选测试集，使用GPT-4o-mini模型

Agent workflow使用下面的

[test-ai-answer-result-gpt4o-mini-check-hallucination-without-websearch（5）.json]

幻觉检查通过的18道试题，均解答正确

测评3

随机选取100道高中英语单选测试集，使用GPT-4o-mini模型

Agent workflow使用下面的

[test-ai-answer-result-gpt4o-mini-check-hallucination-without-websearch（6）.json]

幻觉检查通过3道题，均解答正确。

Agent幻觉检查流程

以2270753096671232为例子，说明整个解题流程

当前节点 :retrieve，节点数据：

{"maxRetrieveCount": 2,"kpointIds": [

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

最新新闻

热搜词

随手写代码第一天项目建设计划书-word 开源项目备忘-AutoMapper Java八股文（下）创意赚钱：探索多元化的收入来源开学测验——仓库管理系统

声明：本站所有新闻及新闻图片来源于其他网站，如有侵权，请及时联系我们！

客户服务 | 关于我们 | 版权声明

版权所有：

Copyright 2024 尧图网 All Rights Reserved.QQ:809451989