人工智能代理(AI Agents)的演变经历了从简单的起步阶段到如今系统化的进展,这些系统结合了内部控制机制、外部语境基础以及认知输入,从而实现了更复杂和动态的交互。
大型语言模型(LLMs)在知识和推理能力方面存在固有限制。具备语言能力的人工智能代理通过将LLMs与内部记忆和外部环境连接起来,利用现有知识或现实观察来解决这些挑战。
过去的系统需要依赖人工设定规则或强化学习,而这些方法在适应新环境时往往显得困难。语言人工智能代理利用嵌入LLMs中的常识理解能力来应对新任务,从而减少对人工标注或反复试错学习的依赖。
架构演变
结合上图,大型语言模型(LLMs)根据其应用目标发挥不同的作用:
• A — 文本处理: 在自然语言处理(NLP)中,LLMs将文本作为输入并生成文本作为输出。
• B — 语言代理: 这些系统将LLMs与外部环境的反馈循环集成,将观察结果转化为文本,并利用LLMs进行决策或执行操作。
• C — 认知语言人工智能代理: 这些高级系统不仅使用LLMs进行交互,还管理内部流程,如学习和推理。
整合
结合下图,可以通过三个关键要素来理解人工智能代理:
• 认知架构:
o 情景记忆(Episodal Memory) 指存储和回忆特定事件或经历的能力,例如记住最近的对话。
o 语义记忆(Semantic Memory) 存储关于世界的通用知识,例如事实和概念。
o 情景记忆是动态且依赖语境的,而语义记忆更稳定,涉及对抽象和一般化信息的理解。
• 动作空间:
o 人工智能代理在双重动作框架中运行。
o 内部动作 包括推理、规划和更新内部状态的过程。
o 外部动作 则涉及与环境的交互,例如执行命令或提供输出。
• 决策过程:
o 代理的决策制定是一个包含规划和执行的交互循环。
o 这一迭代过程使代理能够分析环境、制定策略并据此采取行动,同时根据新信息不断优化其方法。
这些要素共同定义了人工智能代理的操作框架,使其能够在复杂环境中实现适应性和高效行为。
数字环境
人工智能代理主要在多样化的数字环境中运行,这些环境为其交互和任务执行提供了支持。目前,这些环境主要是数字化的,包括移动操作系统、桌面操作系统以及其他数字生态系统。
在这些场景中,人工智能代理可以与游戏、API、网站以及通用代码执行交互,将这些平台作为任务执行和知识应用的基础。
数字环境为开发和评估人工智能代理提供了一种高效且成本低廉的替代方案,避免了物理交互中的高成本和复杂性。
实际案例
例如,在自然语言处理(NLP)任务中,数字API(如搜索引擎、计算器和翻译工具)通常被作为操作系统中的工具,专为特定用途设计。
这些工具可以被视为专用的单用途数字环境,使代理能够完成需要外部知识或计算的任务。
随着人工智能代理的不断发展,其在数字环境中的角色将超越静态交互,为更复杂的系统奠定基础。
迈向未来
人工智能代理的未来在于其物理化,能够在现实世界环境中操作。这一转变将为人工智能开辟新的可能性,使代理能够与物理世界进行交互、导航动态空间,并在机器人等领域中发挥作用。
从纯粹的数字环境转向物理环境代表着一大步前进,因为这将要求人工智能代理整合感官数据、物理动作以及基于情境的决策,从而进一步增强其能力和应用范围。
结论
本研究的亮点在于对围绕LLMs构建的演变框架的详细分析,旨在最大化其潜力。研究指出,这些框架既包含内部结构,也包含外部机制,二者协同工作以增强其能力。
• 在内部, 重点在于推理,它构成了模型智能和决策过程的核心。
• 在外部, 演变从数据增强开始,使更多信息得以整合。
随着时间的推移,这些外部框架扩展到与外部世界的直接交互,进一步拓展了LLMs的功能和适应性。