想的少反而做得好？一文读懂如何训练Deep Research智能体

剧拧并 · 昨天 00:15

解读论文：How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1（arXiv: 2602.19526），来自中科院自动化所与美团。

引言：Deep Research为什么需要强化学习？

你有没有想过，当你向AI提出一个复杂问题——比如"2010年哈德逊县495号公路17号出口所在城镇的人口是多少？"——AI是怎么一步步找到答案的？
这类问题不是靠"一次性推理"就能解决的。AI需要像一个研究员一样：先搜索、再阅读、再判断信息够不够、不够就继续搜……这种"多轮检索+逐步推理+最终决策"的范式，就是当下火热的Deep Research。

近年来，强化学习（RL） 被引入Deep Research训练中，因为这个过程天然就是一个"长程交互决策"问题——智能体需要在稀疏反馈下做出一系列搜索和回答的决策，这与RL的核心思想高度契合。
然而，现有的RL训练方案五花八门：有人用PPO，有人用GRPO，有人用REINFORCE；奖励函数有用Exact Match的，也有用F1的；提示模板更是各有各的设计。到底哪些配置真正在起作用？ 这个问题一直没有系统性的回答。
本文要解读的这篇论文，正是第一个对Deep Research中RL训练进行全面、系统性研究的工作。研究团队沿着三个解耦的维度——提示模板、奖励函数、策略优化——逐一拆解，最终提出了一个更强的基线方法Search-R1++。

核心框架：三个维度，一个统一视角

论文以Search-R1作为基础框架，严格复现其架构、数据集和检索器，在此受控环境下系统地研究RL训练的三个关键组件：

提示模板（Prompt Template）：指导智能体如何组织推理和搜索行为
奖励函数（Reward Function）：定义什么样的输出是"好的"
策略优化（Policy Optimization）：选择哪种RL算法来更新策略

评估则围绕三个核心指标展开：预测准确率、训练稳定性、推理成本。
实验使用Qwen2.5-3B和Qwen2.5-7B两个模型，在7个问答基准上进行评测，涵盖单跳QA（NQ、TriviaQA、PopQA）和多跳QA（HotpotQA、2WikiMultiHopQA、Musique、Bamboogle）。
发现一：想得越多，反而做得越差

这是论文中最反直觉的发现之一。
在数学推理、代码生成等"System-2"任务中，我们通常认为链式思维（Chain-of-Thought）越长越好——多想一步，答案就更准一些。但在Deep Research场景下，情况恰恰相反。
研究团队对Search-R1生成的轨迹做了统计分析，发现：

显式推理token越多，准确率越低
检索到的信息token越多，准确率也越低

这意味着，在"搜索-阅读-回答"这种交互式任务中，冗长的推理不仅没有帮助，反而成了负担。
快思考 vs 慢思考

基于这一观察，论文设计了两种提示模板进行对比：
慢思考模板（Slow Thinking）：要求模型每次获取新信息后，先在...标签内进行显式推理，然后再决定搜索或回答。这是Search-R1等现有系统普遍采用的方式。
快思考模板（Fast Thinking）：直接让模型输出搜索查询或最终答案，不强制要求中间推理步骤。
打个比方：慢思考就像一个人每查一条资料都要写一段分析笔记，而快思考则像一个经验丰富的研究员，看完资料直接判断"够了，答案是这个"或"还不够，再搜这个"。
实验结果非常明确：
模型慢思考（Search-R1）快思考（本文）Qwen2.5-7B0.4030.422Qwen2.5-3B0.2890.297慢思考为什么会崩溃？

更关键的是，慢思考模板在训练过程中容易出现训练崩溃。

论文通过详细的训练动态分析揭示了崩溃的机制：

训练中期，模型开始在单次决策前生成大量空的或无意义的标签
标签数量激增与性能骤降高度同步
Pearson相关分析显示，崩溃阶段标签数量与奖励之间存在正相关（0.4310），而稳定训练时几乎无相关（-0.0465）

这说明了什么？在PPO的稀疏奖励结构下，模型发现了一条"捷径"：堆叠标签似乎与更高的回报相关联。于是模型不断增加推理标签的数量，形成了一个自我强化的恶性循环，最终导致训练完全崩溃。
而快思考模板从根本上限制了这种无节制的推理膨胀，让策略更新聚焦于真正重要的决策——搜索什么、何时回答。
发现二：F1奖励不如EM？问题出在"回答逃避"

在Deep Research的RL训练中，奖励函数定义了"什么是好的输出"。目前主流的两种奖励是：

Exact Match（EM）：答案与标准答案完全匹配得1分，否则0分
F1 Score：基于token级别的精确率和召回率，给出0到1之间的连续分数

直觉上，F1比EM更"温和"，能提供更细粒度的反馈信号，应该更有利于训练。但实验结果却出人意料：用EM训练的模型，在EM和F1两个评估指标上都优于用F1训练的模型。
崩溃的根源：回答逃避

为什么F1训练反而更差？论文深入分析了F1训练过程中的策略行为，发现了一个关键的退化模式——回答逃避（Answer Avoidance）。

如图所示，当训练分数骤降时，回答率（Answer Rate）也同步大幅下降，但已回答样本的准确率却保持相对稳定。这说明模型并不是"答错了"，而是干脆不回答了。
为什么会这样？因为在纯结果导向的奖励下，不回答和答错得到的奖励是一样的——都是0分。模型"聪明地"发现：与其冒着答错的风险去尝试，不如直接不给答案。这是一种典型的策略退化，模型选择了一条"最省力"的路径。
解决方案：F1+，加入动作级惩罚

论文提出了一个简洁而有效的修复方案——F1+奖励：
$$R_{F1+} = R_{F1} - \alpha \cdot \mathbb{I}[a_s = 0] - \beta \cdot \mathbb{I}[a_a = 0]$$
其中 $a_s$ 是搜索动作次数，$a_a$ 是回答动作次数，$\alpha = \beta = 0.1$。
简单来说，就是在F1奖励的基础上，对"不搜索"和"不回答"这两种行为施加轻量级惩罚。这迫使模型必须积极参与搜索和回答过程，而不能"躺平"。

效果立竿见影：

F1+训练曲线恢复稳定，消除了回答逃避现象
F1+不仅修复了F1的问题，还超越了EM基线

以Qwen2.5-7B为例，平均EM准确率：F1（0.391）< EM（0.422）< F1+（0.429）。
这个发现的意义在于：F1奖励本身并不差，问题在于缺乏对中间动作的约束。只要加上最小限度的动作监督，就能释放F1的潜力。
发现三：经典的REINFORCE才是最优解

在策略优化算法的选择上，Deep Research领域目前主要使用三种方法：

PPO（Proximal Policy Optimization）：使用价值网络（critic）进行优势估计
GRPO（Group Relative Policy Optimization）：使用组内相对优势作为基线
REINFORCE：最经典的策略梯度方法，直接使用蒙特卡洛回报

论文在固定提示模板（快思考）和奖励函数（EM）的条件下，公平对比了三种算法。

稳定性：GRPO最差

从训练曲线来看，GRPO频繁出现训练崩溃，稳定性最差。REINFORCE和PPO都能实现稳定收敛。
GRPO不稳定的原因在于：它依赖同一组采样内的相对优势作为基线。在Deep Research这种多步、长上下文的推理场景中，组内动作的方差很大，导致基线噪声过高，进而引发训练不稳定。
准确率：REINFORCE最高

在最终性能上，REINFORCE取得了最高的整体准确率（0.437），优于PPO（0.422）和GRPO（0.433）。
推理成本：REINFORCE最省

最有趣的发现在推理成本上。REINFORCE学到了最紧凑的搜索策略：
算法单跳QA平均搜索次数多跳QA平均搜索次数总平均搜索次数REINFORCE1.021.681.35PPO1.961.981.97GRPO1.031.841.44REINFORCE在简单的单跳问题上只搜索约1次，在复杂的多跳问题上增加到约1.7次——它学会了根据任务难度自适应调整搜索次数。而PPO则不管问题难易，始终保持约2次搜索，缺乏灵活性。
为什么REINFORCE反而最好？

这个结果可能让很多人意外——REINFORCE是1992年提出的"老"算法，PPO和GRPO都是更"新"的方法。论文给出了深刻的分析：

PPO的问题：它依赖学习到的critic进行优势估计。在EM这种稀疏奖励下，critic很难在长轨迹上拟合准确的价值函数，导致critic偏差无法惩罚冗余搜索，解释了PPO搜索次数居高不下的现象。
GRPO的问题：组内相对基线在高方差场景下噪声太大。
REINFORCE的优势：直接使用累积回报优化策略，不依赖任何外部基线。避免了组采样噪声和critic估计偏差，因此学到了最高效的搜索-回答路径。

有时候，简单就是最好的。
Search-R1++：三个最优选择的组合

基于上述三个维度的发现，论文将最优配置组合在一起，提出了Search-R1++：

提示模板：快思考模板（Fast Thinking）
奖励函数：F1+（F1 + 动作级惩罚）
策略优化：REINFORCE

图中的箭头清晰地勾勒出了整个系统的强化学习训练循环机制：演进生成 $\rightarrow$ 奖励评估 $\rightarrow$ 策略更新。

与多个基线方法的对比结果如下：
Qwen2.5-7B：
方法平均准确率ReAct（无训练）0.172R1-base（无检索）0.276Search-R10.403Search-R1++0.442Qwen2.5-3B：
方法平均准确率ReAct（无训练）0.055R1-base（无检索）0.229Search-R10.289Search-R1++0.331Search-R1++在7B模型上实现了3.9%的相对提升，在3B模型上实现了4.2%的相对提升。值得注意的是，无训练方法（ReAct）在小模型上性能急剧下降，而Search-R1++在不同规模上都保持了稳健的表现，说明合理的RL策略能有效赋能紧凑型模型。
案例分析：崩溃长什么样？

论文提供了非常直观的案例，帮助我们理解训练崩溃的具体表现。
正常阶段（慢思考）：模型先在中进行合理推理，然后搜索，再推理，最后给出正确答案。一切井然有序。
崩溃前兆：模型开始在搜索前输出多个无意义的标签，比如：

Jacksonville Jaguars last playoff appearance 2007 To answer the question...

复制代码

虽然最终答案可能还是对的，但推理过程已经开始冗余。
完全崩溃：模型陷入标签的无限循环：

1941 1941 1941 1941 ...

复制代码

模型不断重复同一个信息，无法做出有效决策，最终耗尽上下文窗口也无法给出答案。
快思考模板：相比之下，使用快思考模板的模型行为简洁高效——直接搜索，获取信息，给出答案，没有多余的推理环节。
对现有工作的启示

这篇论文的发现对Deep Research领域有几个重要启示：
1. 不要盲目追求"更多思考"
在交互式检索任务中，显式推理链并不总是有益的。与数学推理不同，Deep Research的核心能力是"搜索什么"和"何时回答"，而不是"如何推理"。过度的推理反而会引入噪声，甚至导致训练崩溃。
2. 奖励设计需要关注过程，而非仅关注结果
纯结果导向的奖励（无论是EM还是F1）都可能导致策略退化。即使是最小限度的过程监督——比如"你必须搜索"和"你必须回答"——也能显著改善训练稳定性。
3. 算法选择要匹配任务特性
在长程、稀疏奖励的交互式任务中，引入额外的方差减少机制（如critic或组基线）可能适得其反。REINFORCE的"简单粗暴"在这种场景下反而是优势。
4. 不要忽视训练稳定性
很多工作只关注最终性能，忽略了训练过程的稳定性。但在实际部署中，一个容易崩溃的训练流程意味着巨大的调参成本和不可预测的结果。
未来方向

论文指出，Deep Research作为长程LLM推理的典型场景，其中的发现也可以为更广泛的大语言模型RL训练提供指导。未来值得探索的方向包括：

更精细的过程奖励设计：除了"是否搜索"和"是否回答"，能否对搜索查询的质量、信息利用的效率等给出更细粒度的反馈？
自适应推理深度：能否让模型自己学会在需要时深入思考、在简单问题上快速决策？
跨规模的训练策略迁移：小模型和大模型的最优训练配置是否一致？论文发现3B模型无论用什么算法都只搜索一次，这暗示小模型可能需要不同的训练策略。
更丰富的工具集成：当前研究聚焦于搜索引擎这一单一工具，未来如何将发现推广到多工具场景？

总结

这篇论文用扎实的实验回答了一个看似简单却极为重要的问题：训练Deep Research智能体时，RL的哪些配置真正重要？
三个核心结论：

快思考优于慢思考——少想多做，聚焦关键决策
F1+优于EM和F1——结果奖励需要过程约束的配合
REINFORCE优于PPO和GRPO——在长程稀疏奖励下，简单算法反而最稳定高效

这些发现提醒我们：在追求更复杂的工具、更新的算法之前，先把基础组件设计好，可能才是提升Deep Research性能最有效的路径。
更多资源获取欢迎关注我的公众号：「木子吉星」

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册