大模型应用
大模型应用开发,本质上是在在一个充满随机性的模型之上,构建出一套具备确定性的工程架构(Harness Engine)。
记忆层?- 为其提供合适的上下文
- 处理长任务时注意力漂移、
- 久远对话持续消耗 Token
- 保证核心约束 rules 文件持续生效。
- 避免上下文腐化
- 根据过去的失败经验,更新自己的“长期记忆”或“操作手册”。
编排层
- 拆解复杂任务为多个小任务
- 使用多个子智能体完成。或者调用多个模型再总结
- 复杂任务根据上一步完成情况,动态调整任务拆解
执行层
- 提供沙盒、Mcp工具、文件操作、内部工具。
- 通过 Skill 文件提供执行步骤。
- 捕获环境的 Error Trace,并传回给反馈层。
反 馈层
- 获取执行层的结果,确保反馈符合格式。(比如 JSON 是否合法)
- 判断执行的结果是否真的解决了用户最初提出的问题。例如,用户要“找 5 篇相关论文”,执行层只找到了 3 篇,反馈层需要识别出这个缺口。
- 核对事实,通过确定性手段检查执行层的数据来源是否真实存在,例如引用的文章不存在,代码无法执行。
- 当执行层报错时,反馈层通过 Self-Correction 机制引导编排层重新规划。
- LLM-as-a-Judge: 使用更强的模型评价弱模型的输出质量。
大模型越强? 记忆层与编排层就可以越薄,执行层与反馈层的就可以越简单。
提示词工程和上下文工程融入在每个环节中,例如rule文件就属于提示词工程,Skill文件就属于上下文工程。
Transformer🔨
伟大无需多言。
模型社区
为了更好的了解当下模型性能,我列举了几个模型排名网站:
上下文工程
大模型刚出现时,提示词工程铺天盖地,RAG成为企业追逐的热点。现在随着系统化的Harness Engine概念的提出,我们将提示词工程和RAG等对选择性加载到模型上下文的工作统称为上下文工程。