02-02 11:59 已编辑浙江大学全栈开发发布于北京

关注

3.12 ReAct 框架

从 Yao 等人，2022 引入了一个框架，其中 LLMs 以交错的方式生成 推理轨迹 和 任务特定操作 。

生成推理轨迹使模型能够诱导、跟踪和更新操作计划，甚至处理异常情况。操作步骤允许与外部源（如知识库或环境）进行交互并且收集信息。

ReAct 框架允许 LLMs 与外部工具交互来获取额外信息，从而给出更可靠和实际的回应。

结果表明，ReAct 可以在语言和决策任务上的表现要高于几个最先进水准要求的的基线。ReAct 还提高了 LLMs 的人类可解释性和可信度。总的来说，作者发现了将 ReAct 和链式思考 (CoT) 结合使用的最好方法是在推理过程同时使用内部知识和获取到的外部信息。

它是如何运作的?

ReAct 的灵感来自于 “行为” 和 “推理” 之间的协同作用，正是这种协同作用使得人类能够学习新任务并做出决策或推理。

链式思考 (CoT) 提示显示了 LLMs 执行推理轨迹以生成涉及算术和常识推理的问题的答案的能力，以及其他任务 (Wei 等人，2022)。但它因缺乏和外部世界的接触或无法更新自己的知识，而导致事实幻觉和错误传播等问题。

ReAct 是一个将推理和行为与 LLMs 相结合通用的范例。ReAct 提示 LLMs 为任务生成口头推理轨迹和操作。这使得系统执行动态推理来创建、维护和调整操作计划，同时还支持与外部环境(例如，Wikipedia)的交互，以将额外信息合并到推理中。下图展示了 ReAct 的一个示例以及执行问题回答所涉及的不同步骤。

图片来源：Yao等人，2022

在上面的例子中，我们将如下问题作为提示给出，该问题出自 HotpotQA：

除了苹果遥控器，还有哪些设备可以控制苹果遥控器最初设计用来交互的程序?

请注意，上下文中的示例也被添加到提示符中，但为了简单起见，我们在这里排除了它。我们可以看到，该模型生成了 “任务解决轨迹” (思考，行动)。Obs 对应与之交互的环境的观察 (例如搜索引擎)。从本质上讲，ReAct 可以检索信息来支持推理，而推理则有助于确定下一步检索的目标。

ReAct 提示

为了更好的阐释 ReAct 提示是如何运作的，我们继续跟随论文的示例。

第一步是从训练集 (例如 HotPotQA) 中选择案例，并组成 ReAct 格式的轨迹。这些在提示中作为少样本示例。轨迹由多思考-操作-观察步骤组成，如图所示。自由形式的思考用来完成不同的任务，如分解问题、提取信息、执行常识或算术推理、引导搜索公式和合成最终答案。

下面是一个 ReAct 提示的示例(摘自论文，为简单起见缩短为一个示例):

问题 科罗拉多造山带东部区域延伸到的区域的海拔范围是多少?
思考 1 我需要搜索科罗拉多造山带，找到科罗拉多造山带东段延伸的区域，然后找到该区域的海拔范围。
操作 1 搜索 [科罗拉多造山带]
观察 1 科罗拉多造山带是科罗拉多及其周边地区造山运动的一段。
思考 2 它没有提到东部地区。所以我需要查一下东部地区。
操作 2 查找 [东部地区]
观察 2 (结果 1 / 1) 东部区域延伸至高平原，称为中原造山带。
思考 3 科罗拉多造山运动的东部区域延伸到高平原。所以我需要搜索高平原，找到它的海拔范围。
操作 3 搜索 [高平原]
观察 3 高平原指的是两个截然不同的陆地区域之一。
思考 4 我需要搜索高平原（美国）
操作 4 搜索 [高平原（美国）]
观察 4 高平原是大平原的一个分区。从东到西，高平原的海拔从 1800 到 7000 英尺 (550 到 2130 米) 不等。[3]
思考 5 高平原海拔高度从 1800 到 7000 英尺，所以答案是 1800 到 7000 英尺。
操作 5 结束 [1800 到 7000 英尺]
...

请注意，不同的提示设置用于不同类型的任务。对那些以推理为主要目标的任务 (例如 HotpotQA)，多思考-操作-观察步骤用于任务-解决轨迹。对于涉及许多操作步骤的决策任务来说，则较少使用思考。

在知识密集型任务上的表现结果

论文首先对 ReAct 在知识密集型推理任务如问答 (HotPotQA) 和事实验证 (Fever) 上进行了评估。PaLM-540B 作为提示的基本模型。

图片来源: Yao et al., 2022

通过在 HotPotQA 和 Fever 上使用不同提示方法得到的提示的表现结果说明了 ReAct 表现结果通常优于 Act (只涉及操作)。

我们还可以观察到 ReAct 在 Fever 上的表现优于 CoT，而在 HotpotQA 上落后于 CoT。文中对该方法进行了详细的误差分析。总而言之:

CoT 存在事实幻觉的问题
ReAct 的结构性约束降低了它在制定推理步骤方面的灵活性
ReAct 在很大程度上依赖于它正在检索的信息;非信息性搜索结果阻碍了模型推理，并导致难以恢复和重新形成思想

结合并支持在 ReAct 和链式思考+自我一致性之间切换的提示方法通常优于所有其他提示方法。

在决策型任务上的表现结果

论文还给出了 ReAct 在决策型任务上的表现结果。ReAct 基于两个基准进行评估，分别是 ALFWorld (基于文本的游戏) 和 WebShop (在线购物网站环境)。两者都涉及复杂的环境，需要推理才能有效地行动和探索。

请注意，虽然对这些任务的 ReAct 提示的设计有很大不同，但仍然保持了相同的核心思想，即结合推理和行为。下面是一个涉及 ReAct 提示的 ALFWorld 问题示例。

图片来源: Yao et al., 2022

ReAct 在 ALFWorld 和 Webshop 上都优于 Act。没有思考的 Act 不能正确地把目标分解成子目标。尽管在这些类型的任务中，ReAct 的推理显露出优势，但目前基于提示的方法在这些任务上的表现与人类专家相差甚远。

查看这篇论文了解结果详情。

长链 ReAct 的使用

下面是 ReAct 提示方法在实践中如何工作的高阶示例。我们将在 LLM 和长链中使用OpenAI，因为它已经具有内置功能，可以利用 ReAct 框架构建代理，这些代理能够结合 LLM 和其他多种工具的功能来执行任务。

首先，让我们安装并导入必要的库:

%%capture
# 更新或安装必要的库
!pip install --upgrade openai
!pip install --upgrade langchain
!pip install --upgrade python-dotenv
!pip install google-search-results
 
# 引入库
import openai
import os
from langchain.llms import OpenAI
from langchain.agents import load_tools
from langchain.agents import initialize_agent
from dotenv import load_dotenv
load_dotenv()
 
# 载入 API keys; 如果没有，你需要先获取。 
os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_API_KEY")
os.environ["SERPER_API_KEY"] = os.getenv("SERPER_API_KEY")

现在我们可以配置 LLM，我们要用到的工具，以及允许我们将 ReAct 框架与 LLM 和其他工具结合使用的代理。请注意，我们使用搜索 API 来搜索外部信息，并使用 LLM 作为数学工具。

llm = OpenAI(model_name="text-davinci-003" ,temperature=0)
tools = load_tools(["google-serper", "llm-math"], llm=llm)
agent = initialize_agent(tools, llm, agent="zero-shot-react-description", verbose=True)

配置好之后，我们就可以用所需的查询或提示运行代理了。请注意，在这里，我们不会像论文中阐释的那样提供少样本的示例。

agent.run("奥利维亚·王尔德的男朋友是谁?他现在的年龄的0.23次方是多少?")

链执行如下所示:

> 正在输入新代理执行器链......
  我得查出奥利维亚·王尔德的男友是谁然后计算出他的年龄的 0.23 次方。
操作: 搜索
操作输入: “奥利维亚·王尔德的男友”
观察: 奥利维亚·王尔德与杰森·苏代基斯在多年前订婚，在他们分手后，她开始与哈里·斯泰尔斯约会 — 参照他们的关系时间线。
思考: 我需要找出哈里·斯泰尔斯的年龄。
操作: 搜索
操作输入: “哈里·斯泰尔斯的年龄”
观察: 29 岁
思考: 我需要计算 29 的 0.23 次方。
操作: 计算器
操作输入: 29^0.23
观察: 答案: 2.169459462491557
 
思考: 现在我知道最终答案了。
最终答案: 哈里·斯泰尔斯, 奥利维亚·王尔德的男朋友, 29 岁。他年龄的 0.23 次方是 2.169459462491557。
 
> 结束链。

我们得到如下输出:

"哈里·斯泰尔斯, 奥利维亚·王尔德的男朋友, 29 岁。他年龄的 0.23 次方是 2.169459462491557。"

这个例子我们摘自 LangChain 文档并修改，所以这些都要归功于他们。我们鼓励学习者去探索工具和任务的不同组合。

您可以在这里找到这些代码: https://github.com/dair-ai/Prompt-Engineering-Guide/blob/main/notebooks/react.ipynb

提示词工程指南文章被收录于专栏

本专栏是 https://github.com/dair-ai/Prompt-Engineering-Guide 部分中文翻译。

全部评论

推荐最新楼层

昨天 12:06

已编辑

华侨大学测试开发

92你们赢了

最近看到很多 92 的，甚至是硕士，开始往测开赛道卷，说实话有点看不懂。先把话说清楚，大厂里的测开，绝大多数时间干的还是测试的活，只是写点自动化脚本、维护测试平台、接接流水线，真正像开发一样做系统、做架构、做核心平台的测开少得可怜，基本都集中在核心提效组，而且人很少，外面进去的大概率轮不到你，我想真正干过人都清楚。很多人被洗脑了，以为测开也是开，和后端差不多，只是更简单、更轻松、还高薪。现实情况是，测开和开发的职业路径完全不一样。开发的核心是业务和系统能力，测开的核心是稳定性和覆盖率，前者是往上走，后者天花板非常明显。你可以见到很多开发转测开，但你很少见到干了几年测开还能顺利转回开发的。更现实一点说，92 的高学历如果拿来做测开，大部分时间就是在做重复性很强的杂活，这种工作对个人能力的放大效应非常弱。三年下来，你和一个双非的，甚至本科的测开差距不会太大，但你和同龄的后端、平台开发差距会非常明显。这不是努不努力的问题，是赛道问题。所谓测开简单高薪，本质上是把极少数核心测开的上限，当成了整个岗位的常态来宣传。那些工资高、技术强的测开，本身就是开发水平，只是挂了个测开的名。普通人进去，99% 做的都是项目兜底型工作，而不是你想象中的平台开发。测开不是不能做，但它绝对不是开发的平替，也不是性价比最优解。如果你是真的不想做开发，追求稳定，那测开没问题。但如果你只是觉得测开比后端容易，还能进大厂，那我劝你冷静一点，这只是在用短期安全感换长期天花板。有92的学历，如果你连测开这些重复性工作都能心甘情愿接受，那你把时间精力用在真正的开发、系统、业务深度上，回报大概率比卷测开要高得多。想清楚再下场，别被岗位名和话术带偏了，就算去个前端客户端也是随便占坑的，测开是一个坑位很少赛道，反而大面积学历下放，不用想也能知道会是什么结果，我想各位在JAVA那里已经看到了

烤点老白薯：测测你的

点赞评论收藏

02-02 22:30

郑州航空工业管理学院 C++

Faker走位练习器

·牛客 "网页小游戏 AI coding" 活动。 ·游戏链接：http://www.silencer76.com/nowcoderToFaker/核心玩法 ·使用（左键）点击控制（右键会触发浏览器手势）角色移动，（A键）发射攻击摧毁弹道，（F键）使用闪现，冷却5秒。 ·弹道有多种类型，不同难度出现概率数量均不同，随着时间进行，弹幕会增多游戏视图 制作过程 ·链接：https://www.bilibili.com/video/BV17Q6gBfE6m/游戏代码 <!DOCTYPE html> <html lang="zh-CN">...

点赞评论收藏

01-28 23:50

昆明理工大学算法工程师

美团大模型日常实习二面 1h

1.MHA（多头注意力）机制详细讲一下，Q/K/V 怎么算？2.Qwen、ChatGLM、Llama 三者架构核心区别是什么？3.ChatGLM 为什么用 GLM-style attention？优势在哪？ 这个问题啥意思4.DeepSeek 的模型结构有什么特点？MoE 还是 dense？5.RoPE（旋转位置编码）原理是什么？为什么比绝对位置好？6.PPO 算法公式写一下？能不能不用 Value Model？7.GRPO 是什么？和 PPO 有什么区别？知道 GAE 吗？8.交叉熵 loss 公式怎么推导？具体怎么计算的？9.代码生成你怎么看？像 Trae 这类工具，项目代码怎么喂给 LLM 的？10.手撕题：最长回文子串（LeetCode 5）

查看10道真题和解析

点赞评论收藏

01-10 18:05

清华大学 Java

论文真的很难搞啊

写论文，总是比想象中难得多。选题像是在迷雾中寻找方向，文献堆积如山，让人眼花缭乱。每一次实验，每一份数据，都像是在和时间赛跑，而写出来的文字又总觉得不够精准，不够有逻辑。修改更是折磨人：导师的建议常常让你重写一大段，原本以为完成的部分又要返工。每次看到“再改改”，心里都忍不住叹气，但又明白，这正是论文精炼的过程。虽然难，但正是这种挑战，让你学会整理思路、分析问题，也让你逐渐掌握研究的方法。或许写论文真的不容易，但每一行文字、每一份数据，都是向目标前进的脚步。慢慢来，总会完成的。

写论文的崩溃时刻

点赞评论收藏

02-06 23:47

门头沟学院 Java

字节后端二面

40min 左右，面试官提前到了，整体体验很好，题目相对简单，基本都答出来了，感觉面试官放水了。1h 后约三面1.自我介绍2.蓝桥杯省1用的什么语言写的3.Java学了哪些4.string、stringbuffer、stringbuilder5.方法重载和重写的区别6.哪些方法不能被重写？7.什么是函数式接口？8.常见的抽象函数式接口有哪些？9.jdk8之后接口的定义发生了哪些变动？10.Java中实现异步线程有哪些方式呢？11.线程池，比如说异步线程，在生产环境中如何实现主线程和子线程实现一个日志的异步串联。如何去通信?12.threaLocal实现原理？13.Java动态代理？应用场景？14.mybatis中#{},${}的区别15.mybatis中@Param注解16.mybatis中如何实现分表查询17.spring中常用注解18.Autowire注解的用法？可以用在哪个地方（漏了一个用在构造器上，不过后面补说了）19.spring注册bean的方式20.如果我想在一个bean属性之后注入之后，执行一段逻辑，要怎么做（@PostConstruct/ApplicationRunner）21.垃圾回收算法22.主流的垃圾回收器23.CMS的原理24.算法25.期望base哪里，能实习多久？26.反问： 几面？业务?

查看25道真题和解析

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 为了减少AI幻觉，你注入过哪些设定？ #

# 运营人的第一份offer应该如何选 #

218936次浏览 1260人参与

# 找实习多的是你不知道的事 #

1789263次浏览 20670人参与