非专业人士的AI课5：AI Agent的框架与工作流程解析

date

Mar 18, 2025

slug

2025-03-18-the-AI-agent-framework-and-workflow

status

Published

在AI的应用方面，目前最成熟和最广泛的仍然是以类似ChatGPT一样的对话应用，系统提供一个可支持文本输入或者语音输入的界面，用户在其中按照提示词工程的要求输入问题，AI系统对其进行学习研究、推理决策、生成答案，最后再通过文本框或者语音的形式把生成的答案展现给用户。

而AI Agent，也称为AI智能体或者AI智能代理，是一个具有一定程度自主性的人工系统。更具体地说，AI Agent是一个能够自动感知环境、做出决策并付诸行动的智能系统。

因此，相比于ChatGPT类型的对话方面的应用（重心在于能够回答用户所提出的问题），AI Agent系统所具备的自主性和适应性是其最大的特色。Agent能够自动通过对输入的分析感知环境、参数变量的变化，针对变化自主思考下一步的行动计划，并自行执行经过深思熟虑的思考后的行动，最终给出结果。

下图是参考资料1第二章所提出的一个AI Agent的框架图。从图中可以看到，一个典型的AI Agent包括四大元素：规划，记忆，工具，执行。

AI Agent需要具备思考和规划的能力，而LLM所具备的推理能力很好的解决了这个问题，这也是LLM在推理方面逐渐成熟一下，AI Agent也随之爆发的原因所在。

对完整的复杂任务所进行的规划和思考，主要包含对子目标和任务的分解(Subgoal Decomposition)、连续的思考（即思维链）、自我反思和批评(Self-critics)，以及对过去行动的反思(Reflection)等。

AI Agent的记忆包含两个方面，短期记忆和长期记忆。

短期记忆与任务执行的上下文相关，属于提示工程的一部分，一般在AI Agent运行过程中整理在对话的上下文中传递给大模型服务器。

长期记忆，则用于对AI Agent要用的信息长时间保存并能够实现高效率的检索，最典型的就是能够支持外部知识库，把Agent运行任务需要的外部知识以向量化的方式保存在外部数据库中，并且能够支持高效的检索。

由于大模型一旦完成预训练，其内部能力和知识边界就基本固定下来，而且难以拓展。此外作为基于文本和自然语言的处理和生成工具，大语言模型不太适合一些工作（例如复杂浮点数字的计算），因此就需要一些外部工具来扩展Agent的能力，使其能够执行这些它很难胜任的任务。

AI Agent系统可调用的外部工具，典型的包括网络搜索、日历时间、计算器、本地代码执行能力（Function Calling）等。

AI Agent需要具备调用工具执行任务的能力，与外界互动，通过调用工具的方式来完成一个动作或者子任务。

从上图可以看到，AI Agent如何规划和决策制定过程，如何调用工具来执行行动的完整工作流程是其应用的核心所在，这部分工作逻辑就称为AI Agent的推理引擎或者认知框架。推理引擎决定了Agent如何从感知的环境中抽取信息，如何规划未来的任务，如何利用过去的经验，以及如何调用工具。

研究人员提出了多种智能Agent的推理逻辑，如CoT、ToT、LLM+P等。其中，ReAct框架脱颖而出。

本质上讲，AI Agent的React框架就是一个思考-行动-观察这个完整序列所组成的循环。

以上的流程从概念上理解非常简单，但是应该如何与现实中的AI应用的具体实现来相关联呢？以下通过一个基于LangChain开发框架的示例代码进行说明。

在下面的例子中，使用LangChain框架开发一个简单的Agent。这个Agent的工作流程非常简单，大模型首先对用户输入的问题进行分析，如果需要执行浮点数加减乘除的运算时，就调用本地实现的浮点数运算的代码，然后把结果返回给大模型，由大模型来组织语言输出结果。

其实这个功能完全可以基于大模型的API来使用function calling的方式来实现。但是，通过这个例子的打印信息，可以看到大模型进行思考、决策、调用工具并返回结果的过程，其他更复杂的Agent应用实际上也是类似的工作流程和逻辑。

以下例子自测通过，使用月之暗面的Kimi作为LLM服务器，关于LLM模型的API Key设置以及通过API调用可参考[[基于Python快速实现与Kimi的AI对话]]。

以上程序运行的结果是：

以上通过终端打印的信息很值得研究：

首先就是，在用户问题提出的连续计算的需求，被明确的分成了两步，首先计算加法，然后再计算乘法。每一步的计算逻辑都是：模型给出这一步的计算式，本地代码运行这个计算式，把结果以字符串形式返回模型，模型基于中间结果再执行下一个计算式，直到最终计算完成后输出结果。