相信大家对 DeepSeek 等对话型 AI 已经非常熟悉了。在官网上,我们问任何问题,它都能根据问题给出回答。
但今天要介绍的 AI Agent,它不同于这种单纯的对话模式。
如何理解 AI 的进化?
在开始技术实操之前,让我们先建立一个重要的思维框架:能力边界识别法
想象两个场景:
- 传统 AI:你问"今天天气怎么样?",它回答天气信息
- AI Agent:你说"帮我安排周末出行",它会:
查询天气预报
推荐合适的目的地
查找交通信息
甚至帮你预订酒店
传统 AI 是信息检索器,AI Agent 就像一个懂得自主思考和行动的智能助理,你只需告诉它目标,剩下的事情它会自主规划并完成。
这种差异背后的核心是:
- 传统 AI = 单点能力
- AI Agent = 能力组合 + 自主决策
思维总结
当你设计任何智能系统时,首先要问自己:这个系统需要知道答案还是完成任务?
这个思维模式适用于所有自动化场景的设计。
一、什么是 AI Agent?
1.核心概念
AI Agent 是能够感知环境、自主决策、执行任务的智能系统。
Agent 的本质是什么?在理解 Agent 之前,让我们用一个思维模型来分析:
LOOP思维模型
复制这不是一个简单的公式,而是一个系统设计思维:
- LLM(大语言模型):Agent 的"大脑",负责理解和决策
- Tools(工具):Agent 的"手脚",执行具体任务
- Context(上下文):Agent 的"视野",理解当前情况
- Memory(记忆):Agent 的"经验",记住历史信息
💡 任何智能系统都可以用这四个维度来分析。比如:
- 自动驾驶汽车:传感器(Context) + AI 模型(LLM) + 控制系统(Tools) + 行驶记录(Memory)
- 智能客服:对话上下文(Context) + 语言模型(LLM) + 业务API(Tools) + 历史会话(Memory)
小贴士:现在不理解这些概念没关系,通过后面的实践你会逐渐明白。
二)Agent 的核心能力对比
与传统 AI 的最大区别在于:
维度 | 传统对话 AI | AI Agent |
响应模式 | 被动回答 | 主动执行 |
处理深度 | 单轮对话 | 多步骤规划 |
决策方式 | 固定流程 | 动态决策 |
能力范围 | 单一功能 | 工具调用 |
选择建议:
- 简单问答场景:使用传统 AI → 成本低、响应快
- 复杂任务场景:使用 AI Agent → 自主性强、能力全面
- 混合场景:先用传统 AI 判断意图,复杂任务转 Agent 处理
二、创建第一个 AI Agent
模块化设计思维
在动手之前,先培养一个关键思维:模块化设计。
三层架构思维
- 触发层:如何启动?(Chat/Webhook/定时)
- 处理层:如何思考?(LLM + Memory)
- 执行层:如何行动?(Tools)
这种分层思维让你能够:
- 灵活替换任何一层而不影响其他层
- 快速定位问题所在层级
- 复用已有模块构建新系统
1.Step 1:添加AI Agent节点
- 打开 n8n 工作流画布
- 点击"添加节点"按钮(+号)
- 在搜索框输入"AI Agent"
- 选择 AI Agent 节点
你会看到AI Agent节点自带一个聊天触发器,这意味着我们可以通过聊天界面与它交互。
图片
2.Step 2:理解 Agent 的三个连接点
AI Agent节点下方有三个连接点(+号),它们分别是:
- 左侧:Chat Model
- Agent 的"大脑"
- 决定 AI 的智能程度
- 中间:Memory
- Agent 的"记忆库"
- 让 AI 记住对话历史
- 右侧:Tools
- Agent 的"工具箱"
- 赋予 AI 执行能力
从配置节点到设计系统
❌ 传统思维:"我要配置这三个连接点"
✅ 系统思维:"我要设计一个具有特定能力的智能系统"
每个连接点不是独立的配置项,而是系统能力的一个维度:
- Chat Model 决定理解能力
- Memory 决定连续性
- Tools 决定执行范围
3.Step 3:连接 Chat Model
点击左侧 Chat Model 的连接点后,你会看到弹出了很多 AI 模型供你选择。
图片
你可以将你平时常用的AI模型链接到AI Agent。这里我来选择大众最熟悉的 DeepSeek。
模型选择不是"越强越好",而是"适合最好"。就像不会用牛刀杀鸡,也不会用水果刀砍柴。
首次配置DeepSeek:
- 选择DeepSeek后,需要创建一个凭证
- 点击 "Create new credential"
图片
- 输入你的 DeepSeek API Key(可以在DeepSeek开放平台获取)
图片
图片
图片
- 保存凭证
图片
图片
配置完成后,你会看到 DeepSeek 提供了两个模型选项:
图片
- DeepSeek Chat (v3) :这是他们的通用对话模型,响应速度快,适合日常对话
- DeepSeek Reasoner (R1) :这是最新的深度推理模型,擅长复杂逻辑推理
对于我们的第一个 Agent,选择 Chat 模型就足够了。
4.Step 4:测试基础对话
- 点击"Open chat"运行工作流
图片
- 在聊天界面输入:"Hello"
- 观察 AI 的回复
图片
问题发现:AI 回复的是英文,但我们更希望它能用中文与我们交流。
问题分析与解决
面对 AI 回复英文这个问题,运用问题分析三步法:
- 现象识别:AI 能正常工作,但语言不符预期
- 原因推断:缺少语言偏好设置
- 解决方案:添加系统提示词指定语言
这个思维方法可以应用到任何调试场景。
三、优化 Agent:添加系统提示词
1.设置系统消息
- 双击AI Agent节点
- 点击底部的 "Add Option"
- 选择 "System Message"
图片
- 输入系统提示词:
图片
2.再次测试
输入"Hello",这次 AI 会用中文回复了!
图片
四、发现问题:缺失的记忆
1.记忆测试实验
第一轮对话:
- 用户:"香蕉的英文怎么说?"
- AI:"香蕉的英文是banana"
第二轮对话:
- 用户:"我刚刚问你的是什么?"
- AI:"您好!您之前并没有向我提问过任何问题,这是我们对话的开始。请问现在有什么我可以帮助您的吗?"
图片
2.问题分析
AI 看起来很"傻",但这不是 AI 的问题,而是我们没有给它配置记忆功能。每次对话对它来说都是全新的开始。
理解 Session 管理的本质
AI Agent完全记不住上下文,其实就是Session管理的概念。Session管理不仅仅是技术概念,更是一种状态管理思维。
简而言之: Session 让 AI Agent 记住正在进行对话的上下文。没有它,AI 只能接受单个提示并独立回答,完全不知道过去的对话发生了什么。
生活类比理解
- 没有 Session :就像每次去银行,柜员都不认识你
- 有 Session :就像你的专属客户经理,记得之前的沟通
Session的工作原理
复制Session 设计要考虑三个维度:
- 隔离性:不同用户/场景的数据互不干扰
- 持续性:记忆保持多久
- 容量性:记忆多少内容
图片
图片
五、添加记忆功能
1.tep 1:理解记忆的重要性
记忆让 AI Agent 能够:
- 记住用户偏好
- 追踪任务进度
- 维持上下文连贯
- 实现多轮对话
2.Step 2:配置记忆节点
点击AI Agent右侧的连接点,你会看到n8n提供了多种记忆存储方式。
图片
选择建议:存储方案对比
存储方式 | 适用场景 | 优点 | 缺点 |
Simple Memory | 测试/开发 | 零配置 | 重启失效 |
Redis | 高并发场景 | 速度快 | 需要维护 |
MongoDB | 复杂数据 | 灵活性高 | 配置复杂 |
PostgreSQL | 企业应用 | 可靠性强 | 资源占用大 |
选择存储方案时,遵循渐进式升级原则:
- 开始用最简单的(Simple Memory)
- 遇到限制时再升级
- 不要过度设计
对于我们的第一个Agent,选择Simple Memory就足够了。
Simple Memory的特点:
- ✅ 零配置:不需要设置任何数据库或外部服务
- ✅ 即插即用:选择后立即可用
- ✅ 适合学习:最适合新手理解记忆功能的作用
- ⚠️ 临时存储:记忆只在当前会话有效,重启 n8n 后会清空
- ⚠️ 单机限制:不适合生产环境或多实例部署
选择Simple Memory后,你可以设置:
- Context Window Size: 10(记住最近10轮对话)
- Session ID: 可选,用于区分不同用户的对话(对于chat触发器来说,默认是{{ $json.sessionId }})
图片
进阶提示:在后续章节中,我们会详细介绍如何使用数据库存储记忆,实现跨会话、跨设备的持久化对话记录。
3.Step 3:验证记忆功能
重复之前的测试:
- 问:"钢铁侠的英文怎么说?"
- 再问:"我刚刚问你的是什么?"
- AI现在能正确回答:"你刚刚问的是:"钢铁侠的英文怎么说?""
图片
现在我们的 Agent 已经有了大脑(Chat Model)和记忆(Memory),接下来该给它装上手脚了——工具系统!
六、添加工具能力
1.为什么需要工具?
想象一下,如果你只能说话但不能动手,会是什么感觉?这就是纯对话 AI 的困境。
能力进化路径
复制配备工具的Agent = 全能助手
- 🔍 搜索最新信息
- 📁 读写各种文件
- 📧 发送邮件通知
- 🌐 调用第三方API
- 🧮 执行复杂计算
- 📅 管理日程安排
- 🗺️ 查询地理信息
工具选择遵循最小必要原则:
- 不是工具越多越好
- 每个工具都要有明确用途
- 避免功能重叠
工具就像给 AI 装上了"手脚",让它从只会聊天的机器人进化成真正的智能助手!
2.打造智能日程管家
群里很多朋友对 n8n + 飞书 的组合很感兴趣,那咱们就来搞个实用的——智能日程助手!
(1)我们的目标很简单但很强大
- 听懂人话 - "明天下午2点开会"这种自然语言
- 主动查询 - 自己去看看日历有什么安排
- 智能创建 - 根据需求创建新日程
- 贴心服务 - 查天气、找地点,一条龙服务
(2)技术栈选择
- n8n - 工作流编排平台
- 飞书日历 - 日程管理载体
- n8n-nodes-feishu-lite - 社区贡献的飞书节点包
3.工具配置
既然要做就做全套!我们一次性配置4个核心工具,把日历管理完全交给 AI Agent。
图片
点击工作流下载区下载现成的工作流模板,
跟着课程一步步实践,事半功倍!
(1)开通权限
首先我们需要将日历相关的权限都开通。
1)批量导入权限
复制图片
然后我们肉眼扫一眼后,点击申请开通权限。
图片
2)添加机器人能力
接下来,在应用能力中添加机器人能力,这是调用日历相关接口的前提条件。
图片
3)发布应用
图片
图片
(2)创建共享日历
1)执行共享日历
因为我们是通过应用身份去操作日历的,所以首先需要通过应用创建一个共享日历,如图右边的 calendar_id 就是后续我们要操作的一个日历ID。
图片
可以在提供的工作流中,直接点击Debug节点,可以自动生成一个日历。
图片
2)订阅共享日历
默认情况下刚加的日历是不会出现的,需要我们自己主动搜索订阅。
图片
图片
3)配置共享日历ID
我们拿到上面的日历ID后,比如[email protected],我们需要将这个ID,复制到日历配置节点里。
图片
图片
(3)查询单个日程
复制(4)创建日程
复制图片
(5)获取日程列表
复制图片
(6)删除日程
复制图片
图片
什么是"Defined automatically by the model"
这个功能的意思是:让AI模型自动识别和填写参数值,而不是手动指定。
工作原理
当你选择这个选项时:
- AI分析上下文 - 模型会分析用户的输入和对话历史
- 智能推断参数 - 根据语义理解推断出需要的参数值
- 自动填写 - 无需人工配置,AI自动提供正确的值
1)传统方式
复制2)AI自动模式
复制3)实际场景示例
用户说:"取消后天下午的产品评审"
AI的智能推理过程:
- 🔍 语义理解:用户想删除"后天下午的产品评审"
- 📋 上下文分析:从之前 ListEvents 的结果中查找
- 🎯 匹配识别:找到 summary 包含"产品评审"且时间在后天下午的事件
- 🔑 提取ID:自动获取该事件的 event_id
- ✅ 调用删除:用提取的 ID 调用 DeleteEvents
4.CreateEvent的"坑"与解决方案
创建日程看起来简单,实际上有不少细节需要处理:
(1)复杂的请求体结构
飞书的 CreateEven t需要这样的 JSON:
复制将CreateEvent的"请求体"字段改为手动模式,使用表达式。
图片
(2)AI自动构造的挑战
问题来了:如何让AI理解"明天下午2点开会"并转换成正确的时间戳?
解决方案:精心设计的提示词
复制5.智能升级:天气+地图让助手更贴心
光会管理日程还不够,真正的智能助手要能提供情境化服务!
(1)情境化思维框架
- 核心任务:用户要做什么?
- 相关信息:什么信息能帮助决策?
- 主动建议:能提供什么额外价值?
(2)场景示例
1)场景1:天气感知的出行规划
用户:"明天上午9点去上海出差"
智能助手的思考过程:
- 📅 创建"上海出差"日程
- 🌦️ 查询上海明天天气
- 💡 根据天气给出建议
最终日程描述:
复制2)场景2:地点信息的智能补充
用户:"下周一下午3点在国贸开会"
智能处理:
- 📍 搜索"国贸"具体位置
- 🛣️ 提供详细地址和交通建议
- ⏰ 根据距离建议出发时间
(3)技术实现:高德地图MCP加持
高德地图Endpoint配置示例:
复制SSE 模式
HTTP Streamable 模式
高德API密钥获取地址:https://console.amap.com/dev/key/app
图片
🎉 恭喜!我们的智能日程助理已经功能完备了。但现在有个问题:它只能在n8n界面中使用...
七、从聊天界面到全平台调用:Webhook 化你的 AI Agent
图片
1.现状分析:局限性与突破点
目前我们的智能日程助理存在一个明显的局限:
当前状态:
- ✅ 功能完善 - 能查询、创建、删除日程
- ✅ 智能交互 - 理解自然语言指令
- ❌ 使用受限 - 只能在n8n的Chat界面中使用
- ❌ 场景单一 - 无法集成到其他应用
★
突破方向:
通过 Webhook 改造,让 AI Agent 从"内部工具"变成"开放服务"!
2.Webhook改造:三步走策略
(1)架构转换思维
复制这种转换让系统获得:
- 可访问性:任何平台都能调用
- 可集成性:融入现有系统
- 可扩展性:支持多种触发方式
(2)改造步骤
1)Step 1:替换触发器
原来的触发方式:
复制改造后的触发方式:
复制具体操作:
- 删除 "When chat message received" 节点
- 添加 "Webhook"节点
- 设置 HTTP 方法为POST
- 获取 Webhook URL
2)Step 2:调整数据流
原来的数据结构:
复制Webhook数据结构:
复制图片
Edit Fields节点调整:
复制图片
3)Step 3:添加响应机制
在工作流末尾添加Respond to Webhook节点,配置返回内容格式。
图片
3.iPhone 快捷指令集成
现在来点特别的!让我们用 iPhone 的快捷指令创建一个语音控制的日程助理。
(1)Step 1:添加语音识别
操作:搜索并添加"听写文本"
- 功能:将语音转换为文字
- 配置:
默认语言:中文(简体)
提示文本:"请说出您的日程安排指令"
停止听写:自动
图片
图片
图片
(2)Step 2:配置 Webhook 地址
操作:搜索并添加"URL"
- URL设置:https://your-n8n-instance.com/webhook/calendar-assistant
- 说明:这是你的n8n工作流Webhook地址
(3)Step 3:发送HTTP请求
操作:搜索并添加"获取URL内容"
- HTTP方法:POST
- 请求体格式:JSON
- 请求体内容:
图片
图片
(4)Step 4:语音反馈
操作:搜索并添加"朗读文本"
- 朗读内容:[获取的URL内容]
- 语音设置:选择喜欢的中文语音
- 语速:根据个人喜好调整
图片
(5)Step 5:完成设置
点击"完成",给快捷指令取个名字:**"智能日程助手"**
另有有必要提一下,我们当前的这个Webhook在互联网是处于"裸奔"状态,只要有人拿到了这个链接,都可以调用它,这样其实是很不安全的。
在后续的安全性与凭证里会介绍如何保护我们的Webhook。
4.完整的iPhone快捷指令流程
🎤 用户说话
↓
📝 听写文本(语音→文字)
↓
🌐 获取URL内容(发送到n8n)
↓
🤖 n8n处理(AI Agent 执行)
↓
📱 返回结果
↓
🔊 朗读文本(文字→语音)
写在最后
技术的终极目标从来不是展示复杂性,而是让复杂的事情变得简单。当 AI Agent 能够理解"帮我安排周末出行"这样的模糊需求,并自主完成规划时,我们看到的不仅是技术的进步,更是人机交互方式的根本性变革。
未来已来,不是渐进的,而是跃迁的。
你手中的这套 AI Agent 技能,不只是一个编程技巧,而是通往未来的钥匙。在这个 AI 重新定义一切的时代,掌握 Agent 思维的人,将站在变革的最前沿。
所以,你准备好迎接这个智能化的未来了吗?