文章目录
- 摘要
- Abstract
- 1. 引言
- 2. AI Agent
- 2.1 智能体的演变过程
- 2.2 大语言模型为什么适合作为智能体的大脑
- 3. LLM-Based Agent
- 4. LLM-Based Agent框架
- 5. 学习CrewAI和LangGraph
- 5.1 选择CrewAI和LangGraph的原因
- 5.2 CrewAI学习进度
- 5.3 LangGraph学习进度
- 参考
- 总结
摘要
本周,我围绕基于大语言模型的智能体展开系统性研究,首先梳理了智能体在人工智能领域的演变历程,从早期的符号智能体到当前基于大语言模型的智能体,分析了各类智能体的核心特征与优劣势。同时,重点阐释了大语言模型作为智能体"大脑"的适配性,其自主性、响应性、主动性和社会性四大特性为智能体提供了类人的决策与交互能力。在此基础上,文章介绍了由感知模块、大脑模块和行动模块构成的LLM-Based Agent框架,并列举了包括CrewAI、LangGraph在内的主流开源实现框架,通过对比其特性为开发者提供技术选型参考。最后结合实践,分享了CrewAI框架的初步学习成果,为后续研究与应用奠定基础。
Abstract
This week, I conducted a systematic study on Large Language Model (LLM)-based agents. I began by reviewing the evolution of agents in the field of artificial intelligence — from early symbolic agents to the current LLM-based agents — and analyzed the core characteristics, advantages, and limitations of different types of agents. I particularly emphasized the adaptability of large language models as the “brain” of agents, highlighting their four key traits: autonomy, reactivity, proactivity, and sociality, which empower agents with human-like decision-making and interaction capabilities.Building on this foundation, the article introduced the typical LLM-based agent framework, which consists of a perception module, a brain module, and an action module. It also presented mainstream open-source implementation frameworks, including CrewAI and LangGraph, offering developers technical references through a comparative analysis of their features. Finally, combined with hands-on practice, I shared my initial learning outcomes using the CrewAI framework, laying a solid foundation for future research and applications.
1. 引言
《The Rise and Potential of Large Language Model Based Agents: A Survey》是由复旦NLP团队和米哈游共同发表的关于LLM-Based Agents的综述。研究LLM-Based Agent应用开发之前,是很有必要阅读该文献以了解目前LLM-Based Agent的现状。
2. AI Agent
研究AI的目的是为了设计出具备类人智力和能力的系统。在AI这个领域,智能体Agent指的是一种人工实体,它能通过感知器来感知周围的环境,接着在此基础上做出决策,然后执行符合决策的行动。
2.1 智能体的演变过程
符号智能体 | 响应式智能体 | 基于强化学习的智能体 | 基于迁移学习和元学习的智能体 | 基于大语言模型的智能体 | |
---|---|---|---|---|---|
本质 | 使用逻辑规则和符号表示来封装知识并促进推理过程 | 基于感知-行动的循环,要求快速和实时的响应 | 利用强化学习方法来训练智能体处理复杂问题 | 通过迁移学习和元学习来加速智能体对新任务的学习 | 将大模型作为智能体的大脑,并且扩展大模型的感知和行动空间 |
优点 | 1. 具备明确和可解释的推理框架 2. 由于符号表达的本质,表现出高度的表达能力 | 1. 计算资源需求少 2. 响应速度快 | 1. 能在未知环境中自主学习,无需人为干预 | 1. 减少新任务的培训负担 2. 促进不同任务之间的知识共享和迁移 | 1. 大模型具备推理和规划能力 2. 大模型具备交互能力,能感知并执行行动 3. 大模型的泛化能力强 |
缺点 | 1. 无法处理不确定或大规模的现实世界问题 2. 由于符号推理算法的复杂性,无法在有限的时间内给出有意义的结果 | 1.缺乏复杂的高层决策和规划能力 | 1. 在处理复杂现实问题时需要较长训练时间、面临采样效率低 | 1. 源任务和目标任务之间存在显著差异 2. 迁移学习中存在负迁移现象 3. 元学习需要大量的预训练和样本 | 1. 大模型存在“幻觉” 2. 大模型的逻辑与数学推理能力差 |
2.2 大语言模型为什么适合作为智能体的大脑
大 语 言 模 型 为 什 么 适 合 作 为 智 能 体 的 大 脑 | |
自 主 性 | |
含义 | 1. 在没有人类或其他人直接干预的情况下运行 2. 对自己的行为和内部状态有一定程度的控制 |
表现 | 1. 大模型在无需详细分步说明的情况下能生成类似人类的文本,参与对话和执行各种任务 2. 大模型能根据环境输入动态调整其输出 3. 大模型能展出没有显式编入程序的并且全新的想法、故事或解决方案 |
响 应 性 | |
含义 | 1. 对环境中的即时变化和刺激做出快速反应 |
表现 | 1. 大模型可以通过多模态融合技术扩大感知空间 2. 大模型可以通过具身技术和工具来扩大行动空间 3. 大模型在执行非文本操作时,需要以文本的形式生成想法或工具使用步骤,最终将生成的文本转换为具体操作。这一过程与人类的行为模式一致 |
主 动 性 | |
含义 | 1. 主动对环境做出反应 2. 主动行动以完成目标 |
表现 | 1. 通过思维链技术可以引导大模型推理 2. 大模型能在紧急情况下根据目标重新制定计划、分解任务或调整计划 |
社 会 性 | |
含义 | 1. 与其他智能体互动 |
表现 | 1. 由于强大的自然语言互动能力,大模型能以可解释的方式与其他模型或人类进行互动 2. 大模型之间通过如协作或竞争的社会行为以达到更好的任务效果 3. 大模型能根据特定的提示词扮演不同的角色 4. 将不同的大模型放到一个社会中,可以观察到社会现象 |
3. LLM-Based Agent
论文提出基于大语言模型的智能体概念框架如下图所示。基于大语言模型的智能体由三部分组成:
1. 感知模块Perception:感知模块将智能体的感知空间从文本扩展到多个模态。
2. 大脑Brain:大脑是智能体的核心,它不仅存储知识和记忆,而且还进行信息处理和决策。
3. 行动模块Action:行动模块通过具身动作和工具处理增强智能体的能力,使其适应环境、提供反馈,甚至影响和塑造环境。
4. LLM-Based Agent框架
框架名 | Github仓库地址 |
---|---|
crewai | https://github.com/crewAIInc/crewAI |
ModelScope Agent(阿里) | https://github.com/modelscope/modelscope-agent |
autogen(Microsoft) | https://github.com/microsoft/autogen |
OpenAI Agents SDK | https://github.com/openai/openai-agents-python |
Qwen Agent | https://github.com/QwenLM/Qwen-Agent |
agentUniverse | https://github.com/agentuniverse-ai/agentUniverse |
smolagents | https://github.com/huggingface/smolagents |
pydantic ai | https://github.com/pydantic/pydantic-ai |
MetaGPT | https://github.com/geekan/MetaGPT |
XAgent | https://github.com/OpenBMB/XAgent |
LangGraph | https://github.com/langchain-ai/langgraph |
semantic kenrnel | https://github.com/microsoft/semantic-kernel |
agno | https://github.com/agno-agi/agno |
agentDSL(仓颉内嵌) | - |
5. 学习CrewAI和LangGraph
5.1 选择CrewAI和LangGraph的原因
CrewAI | LangGraph | |
共性 | 1. 内部集成了概念框架中提及的Tools、Memory、Knowledge等组件 2. 软件生态丰富 | |
优点 | 学习难度低 | 高度自由 |
缺点 | 自由度低,高度封装 | 学习难度高 |
5.2 CrewAI学习进度
本周CrewAI学习进度指路:CrewAI Community Version(一)——初步了解以及QuickStart样例
5.3 LangGraph学习进度
本周LangGraph学习进度指路:暂无进度。
参考
Zhiheng Xi, Wenxiang Chen, Xin Guo. and et al. The Rise and Potential of Large Language Model Based Agents: A Survey.
总结
通过对LLM-Based Agent技术体系的全面梳理,可以看出大语言模型为智能体赋予了前所未有的环境感知、自主决策和多模态交互能力。当前开源生态已形成从轻量级封装框架到高度自由化工具的完整技术谱系,开发者可根据项目需求在易用性与灵活性之间权衡选择。