Agent开发
Agent 的意义 :在 AI 时代,Agent 可以利用大模型处理复杂任务。
info
复杂任务的定义:可以使用非规则化的自然语言描述并执行。
Agent的三 个核心板块:模型、工具、流程。
关于大模型我们在前面已经学习了:模型社区、模型部署、提示词工程。
关于工具部分基本上各家都能兼容各种类型的工具,例如:纯提示词、Function Call 、MCP
单一智能体各家都可以实现,因此技术选型主要集中在如何快速构建多智能体流程,尤其在于:记忆管理(分组、长短记忆、修剪与同步)、human-in-the-loop、智能体切换逻辑。
| 开发方式 | 代表产品/框架 | 优点 | 缺点 |
|---|---|---|---|
| 低代码/无代码开发 | Coze | • 简单易用 | • 功能有限• 收费昂贵• 云端执行非自主(必须联网)• 不可控• 不同平台差异大,不易迁移• 插件大多需要独立的Token• 平台可用的大模型有限 |
| 框架开发 | LangChain、AutoGen、MG等 | • 功能强大• 可以满足复杂需求• 代码可以灵活复用 | • 需要一定的技术门槛 |
Agent 设计理论
Agent 开发与变化趋势
| 时代 | 主要特点 | 示例 | 局限性 |
|---|---|---|---|
| 规则时代 | 基于预定义规则和关键词匹配,无法理解语言深层含义。 | 用户说“小爱同学,关灯”,必须精确匹配关键词才能执行。 | 无法处理复杂语义;智能化提升依赖于编写更复杂的规则。 |
| Agent 1.0 | 利用语义理解处理自然语言变体和歧义,但仅限于单个任务。 | 用户说“帮我给张总打电话”,即使通讯录中是“张三总”,也能正确识别并拨打。 | 不能串联多个任务或处理复杂工作流程。 |
| Agent 2.0 | 能将多个任务串联成工作流程,自动规划和执行,但依赖于提供的函数或API。 | 用户说“查询明天天气并给某联系人发邮件”,Agent能自动完成整个过程。 | 无法处理未提供工具的任务;类似智能驾驶只能在特定路段自动驾驶。 |
| Agent 2.5 | 具备多模态理解,如视觉,能使用通用工具执行任务,不再局限于特定API。 | 用户说“用PS调整这张照片的对比度”,或“识别森林摄像头中的多种珍稀动物”。 | 相较于职业熟练度顶级的人类,执行速度较慢;特定任务效率低于传统方案。 |
大模型调用工具方式
大模型本身不具备执行能力,需要调用工具。
调用方式都是换汤不换药,就是将可调用的工具(函数)作为提示词的一部分,传入给大模型。大模型做选择填空,并返回特定格式。
- 选择:是否调用以及调用哪些
- 填空:调用函数的参数填什么
Agent中的大模型,第一核心能力是让“大模型做选择填空,并返回特定格式”的指令遵循能力。