AI Agent基础：是什么，如何为个人用途构建一个

2025年11月7日 AI科研 sunqi.org

「AI Agent」这个词被宽泛使用，但理解Agent与聊天机器人真正的区别，能解锁实际应用。AI Agent是一个感知环境、做出决策、采取行动，并根据结果迭代的系统——而不是聊天机器人那种响应单个提示但没有状态或行动能力的方式。

Agent的四个组成部分

感知：Agent接收输入——文字、工具输出、数据库查询、邮件内容、API响应。输入越多样和有用，Agent越有能力。语言模型（大脑）：处理输入并决定下一步做什么，接受当前状态、指令和可用工具，输出文字响应或工具调用。行动/工具：Agent能做什么——发送邮件、搜索网络、写文件、查询数据库、调用API。Agent的能力随工具质量的提升而扩展。记忆：短期记忆（当前对话上下文）和长期记忆（外部数据库、文件或向量存储）。没有记忆，每次交互都从零开始。

简单Agent模式（Python）

任何Agent的核心循环：1. 检查状态和输入。2. 问LLM下一步做什么（描述可用工具）。3. 如果LLM调用工具，执行它并将结果添加到上下文。4. 重复直到LLM输出最终答案。用Anthropic SDK的Python实现大致是：将工具定义为JSON模式→用messages+tools调用Claude API→如果响应包含tool_use内容，执行工具→将工具结果添加回messages→再次调用→重复直到stop_reason为「end_turn」。这个30行的循环是大多数有用个人Agent的基础。

值得构建的实际个人Agent

邮件分类Agent：读取你的收件箱，分类邮件，为常规事项起草回复。需要的工具：Gmail API（读取）、Claude API（分类+起草）。每日简报Agent：每天早上收集天气、新闻、你的日历和关键邮件，然后通过Telegram综合一份每日简报。需要的工具：天气API、新闻API、Google Calendar API、Gmail API。文档归档Agent：监视一个文件夹，读取新PDF文件，提取元数据，用标准化名称归档到正确文件夹。需要的工具：文件系统访问、PDF解析器、Claude API。