笔记🗒️ ⋮ AI Agent

Agent

长期以来，通用人工智能（Artificial General Intelligence，AGI）一直被人类所追求。
从1950年代Alan Turing的设想开始，Agent技术从早期的构想阶段逐渐成熟并落地，在2020年至今进入了爆发期——大模型Agent时代。

AI Agent（Agent/代理/智能体…）更具备“人类”的思维方式，可以识别任务的需求分析、执行规划和问题决策。

有一种说法……💭
AI Agent是prompt工程的一种升级。而当下的商业产品也确实在走着Chatbot->Copilot->Agent的演变路径。

基于LLM驱动的AI Agent

当下，我们常见的Agent往往就是基于LLM驱动的AI Agent。在其体系中，LLM作为智能体的“大脑”（🧠），其他能力，如规划（Planning）、记忆（Memory）、工具使用（Tools）等作为补充。

1️⃣规划能力（Planning）

1. 任务拆解

CoT（Chain of Thought）思维链
告知模型要“step by step”，也就是去尝试把复杂任务拆解成更小的、更简单的任务列表。其使模型的思考过程更可解释。
ToT（Tree of Thoughts）思维树
ToT继承了CoT，并在CoT的基础上做了扩展：进一步要求LLM对子步骤生成更多思考，形成思维树。其结果的搜索可以是BFS（breadth-first search）或DFS(depth-first search)。

2. 自我反思

ReAct（Reasoning and Acting）

注意：是ReAct不是前端框架React！

即推理与行动：追踪LLM的生成过程（与外部系统交互、思考等）。相当于用自然语言做logging。

Reflexion
即反思：给agents装备动态记忆和自我反省能力，以增强推理能力的框架。

注意：区别reflection与reflexion!
CoH（Chain of Hindsight）后见链
让模型学习人类是如何根据反馈（尤其是负面反馈）来逐步改进和修正其输出的。其本质上是一种模型训练方法/推理策略，而不是像CoT、ToT、ReAct那样的Prompt Engineering。

2️⃣记忆能力（Memory）

记忆可以被定义为获取、存储、保留、事后取回等针对信息的流程。一定程度上可与人类的记忆类型进行映射。

这里就不照搬原文了，简单拉个表总结一下👇

记忆类型	英文名	时长	人类记忆	映射到Agent
感觉记忆	Sensory Memory	几秒	瞬间的原始感官输入	对原始输入做Embedding
短期记忆	Short-Term Memory	20~30秒	临时存储少量信息	上下文学习（In-Context Learning）
长期记忆	Long-Term Memory	几天~几十年	长期存储大量信息	外部的向量数据库

3️⃣工具使用（Tool use）

调用外部API

1. function call：

函数调用

2. mcp（model context protocol）：

模型上下文协议

开源框架

CrewAI

CrewAI官网戳此

Multi-Agent
Orchestration
Collaboration
Crews
Process

LangGraph

LangGraph官网戳此

Stateful
Workflows
Cycles
Graph
Control Flow

LlamaIndex

LlamaIndex官网戳此

Data
RAG
Retrieval
Querying

Strands Agents

Strands Agents官网戳此

Financial
Data Analysis
Pre-built
Domain-Specific

Agent Infra

即AI Agentic基础设施

AgentCore

即Amazon Bedrock AgentCore

未完待续……

参考链接

笔记