Agent
长期以来,通用人工智能(Artificial General Intelligence,AGI)一直被人类所追求。
从1950年代Alan Turing的设想开始,Agent技术从早期的构想阶段逐渐成熟并落地,在2020年至今进入了爆发期——大模型Agent时代。
AI Agent(Agent/代理/智能体…)更具备“人类”的思维方式,可以识别任务的需求分析、执行规划和问题决策。
有一种说法……💭
AI Agent是prompt工程的一种升级。而当下的商业产品也确实在走着Chatbot->Copilot->Agent的演变路径。
基于LLM驱动的AI Agent
当下,我们常见的Agent往往就是基于LLM驱动的AI Agent。在其体系中,LLM作为智能体的“大脑”(🧠),其他能力,如规划(Planning)、记忆(Memory)、工具使用(Tools)等作为补充。
1️⃣规划能力(Planning)
1. 任务拆解
CoT(Chain of Thought)思维链
告知模型要“step by step”,也就是去尝试把复杂任务拆解成更小的、更简单的任务列表。其使模型的思考过程更可解释。ToT(Tree of Thoughts)思维树
ToT继承了CoT,并在CoT的基础上做了扩展:进一步要求LLM对子步骤生成更多思考,形成思维树。其结果的搜索可以是BFS(breadth-first search)或DFS(depth-first search)。
2. 自我反思
- ReAct(Reasoning and Acting)
注意:是ReAct不是前端框架React!
即推理与行动:追踪LLM的生成过程(与外部系统交互、思考等)。相当于用自然语言做logging。
Reflexion
即反思:给agents装备动态记忆和自我反省能力,以增强推理能力的框架。注意:区别
reflection与reflexion!CoH(Chain of Hindsight)后见链
让模型学习人类是如何根据反馈(尤其是负面反馈)来逐步改进和修正其输出的。其本质上是一种模型训练方法/推理策略,而不是像CoT、ToT、ReAct那样的Prompt Engineering。
2️⃣记忆能力(Memory)
记忆可以被定义为获取、存储、保留、事后取回等针对信息的流程。一定程度上可与人类的记忆类型进行映射。
这里就不照搬原文了,简单拉个表总结一下👇
| 记忆类型 | 英文名 | 时长 | 人类记忆 | 映射到Agent |
|---|---|---|---|---|
| 感觉记忆 | Sensory Memory | 几秒 | 瞬间的原始感官输入 | 对原始输入做Embedding |
| 短期记忆 | Short-Term Memory | 20~30秒 | 临时存储少量信息 | 上下文学习(In-Context Learning) |
| 长期记忆 | Long-Term Memory | 几天~几十年 | 长期存储大量信息 | 外部的向量数据库 |
3️⃣工具使用(Tool use)
调用外部API
1. function call:
- 函数调用
2. mcp(model context protocol):
- 模型上下文协议
开源框架
CrewAI
- Multi-Agent
- Orchestration
- Collaboration
- Crews
- Process
LangGraph
- Stateful
- Workflows
- Cycles
- Graph
- Control Flow
LlamaIndex
- Data
- RAG
- Retrieval
- Querying
Strands Agents
- Financial
- Data Analysis
- Pre-built
- Domain-Specific
Agent Infra
- 即AI Agentic基础设施
AgentCore
- 即Amazon Bedrock AgentCore
未完待续……


