【Agent学习】吴恩达的Agent4种推理设计模式

发表于 2024-11-13 分类于技术分享， AI ， Agent

前言

代理工作流(Agentic Workflow)是与大型语言模型(LLM)交互和完成任务的一种新方法。

传统上
传统上,我们与LLM交互时，会直接输入一个提示(prompt),LLM然后会基于这个提示直接生成一个输出结果。这种做法有点像让一个人一次性从头到尾写出一篇文章,没有反复修改和迭代的机会。
代理工作流
代理工作流则更像是将写作过程分解为多个步骤：首先是根据主题大纲写一个草稿，然后是对草稿进行分析、修改和补充，之后是进一步完善和润色,如此反复迭代,直到最终生成期望的结果。
作用
测试任务是:”给定一个非空整数列表,返回所有偶数位置元素的和”。使用零示例提示方法,也就是直接让AI生成解决方案代码，GPT-3.5的正确率仅为48%,GPT-4的正确率为67%，表现都相对一般。
但是，当采用代理工作流程，将任务分解为分析问题、迭代编写代码、测试和调试等多个步骤时，GPT-3.5的表现甚至超过了GPT-4使用零示例提示的正确率。Ng指出,在GPT-4模型上应用代理工作流程,也同样取得了非常出色的结果。

概述

Reflection：让 Agent 审视和修正自己生成的输出；
Tool Use：LLM 生成代码、调用 API 等进行实际操作；
Planning：让 Agent 分解复杂任务并按计划执行；
Multiagent Collaboration：多个 Agent 扮演不同角色合作完成任务；

详情

Reflection模式（反思）

上下文

让 Agent 审视和修正自己生成的输出。

问题

大模型的生成有时候会犯懒，可能只会部分执行Prompt导致效果有限。

影响因素

Prompt的内容
大模型的性能

解决方案

Reflection模式适用于让LLM自行审视和修正自己生成的输出，对生成内容进行多次自我调优，进而生成更加优质的内容。

应用场景

这种模式涉及AI系统通过自我反馈和迭代完善来提高自身能力。通过这种方式，AI系统能够在生成初始解决方案后，通过进一步的反思和分析，提高其输出的质量和准确性。
这种方法不仅可以用于编程任务，还可以扩展到其他领域，如写作、设计或任何需要迭代改进的任务。

模式的流程

第一步：Start节点，用于接收用户的输入。
第二步：大模型节点，添加用于实际应用的Prompt
第三步：基于其生成结果（第二步中的大模型的生成结果），复制其Prompt，并进一步提示生成短评，达到审视和修正自己生成输出的效果，提高短评生成质量。
第四步：输出结果。

Tool Use 模式（工具使用）

工具使用范式源于早期计算机视觉领域的探索。由于当时的语言模型无法处理图像,唯一的选择是生成可调用视觉API的函数,如图像生成、目标检测等。随着GPT等多模态语言模型的出现,工具使用概念得以推广,语言模型不再被视为孤立的系统,而是与外部工具和知识库相连的智能代理。

作用

Planning 模式（规划）

定义

Planning是指训练语言模型进行推理、策划和分解复杂任务的能力。这使得语言模型不仅能回答问题,还能主动制定并执行行动计划。

作用

通过规划能力，语言模型可以自主分解任务，确定所需的子步骤和工具，并协调不同模型的调用。
在Andrew提到的一个场景中，语言模型需要先检测图像中人物的姿势，再调用图像生成模型合成新图像，最后结合语音合成输出结果。

Multiagent Collaboration 模式（多智能体协作）

定义

多智能体协作是指让多个语言模型或智能体通过交互协作来完成复杂任务。例如,可以模拟不同角色的专家(如医生、护士等)共同完成诊断和治疗方案的制定。

作用

该模式的关键在于训练智能体之间进行高效协作，明确分工，避免冲突和矛盾。

【Agent学习】吴恩达的Agent4种推理设计模式

前言

概述

详情

Reflection模式（反思）

上下文

问题

影响因素

解决方案

应用场景

相关论文

模式的流程

Tool Use 模式（工具使用）

作用

相关论文

Planning 模式（规划）

定义

作用

相关论文

Multiagent Collaboration 模式（多智能体协作）

定义

作用

相关论文