跳转至

绪论

约 2341 个字 1 张图片 预计阅读时间 8 分钟

1. Tool-integrated Reasoning Models与Agentic Systems的定义和差异

1.1 研究背景

近年来,大型语言模型(LLMs)在推理能力上取得了显著进展,这主要得益于基于结果反馈的强化学习(Reinforcement Learning, RL)。通过微调模型以最大化可验证的奖励,LLMs如DeepSeek-R1和SimpleRL展示出了在自我纠正和多步推理方面的复杂行为能力。为了进一步增强LLMs的能力,研究者们将外部工具(如网页搜索、代码执行)引入推理过程,用于知识检索和精确计算。

在工具增强的LLM推理领域,目前主要存在两种范式:Tool-integrated Reasoning Models(工具集成推理模型)Agentic Systems with Tool Usage(具有工具使用能力的智能体系统)

two method comparison 图1

1.2 Tool-integrated Reasoning Models的定义

Tool-integrated Reasoning Models采用单一的、整体式(monolithic)策略,在完整上下文中交替生成思考过程和工具调用。如图1(a)所示,这类模型通过特殊token(如<think></think><tool_call></tool_call>)来区分推理步骤和工具使用。

具体而言,模型生成的轨迹可表示为序列:

\[ \tau = \{s_1, a_1, e_1, ..., s_t, a_t, e_t\} \]

其中:

  • \(s_t\): 当前上下文状态
  • \(a_t\): 生成的动作(包含思考内容和工具调用)
  • \(e_t\): 工具执行返回的结果

策略模型πθ通过强化学习训练,目标是最大化最终的结果奖励。早期系统仅支持单一工具类型,而近期工作通过将工具元数据编码到提示中,扩展到了多工具设置。

1.3 Agentic Systems with Tool Usage的定义

相比之下,Agentic Systems采用多模块协作架构。如图1(b)所示,这类系统由多个专门化的模块组成,每个模块承担特定角色(如规划器planner、编码器coder、批评者critic)并配备专用工具和能力。

Agentic Systems的关键特征包括:

  • 任务分解: 将复杂问题分解为子目标
  • 模块协作: 通过共享内存和模块间通信进行协调
  • 多轮迭代: 在多个回合中逐步解决问题

这种架构使得系统能够处理需要多样化工具、长时间规划或多阶段推理的任务。

1.4 两种范式的核心差异

对比维度 Tool-integrated Reasoning Agentic Systems
架构设计 单一整体式模型 多模块协作系统
训练方式 通过RL训练单一策略 通常无训练,依赖手工逻辑或提示工程
问题处理 在全上下文中连续推理 分解为子任务,模块间协作完成
工具使用 在单一推理链中交织工具调用 不同模块可使用不同专用工具
扩展性 随horizon和工具增多而不稳定 架构灵活但协调困难
泛化能力 对未见任务/工具泛化较弱 理论上更灵活但缺乏学习能力

关键区别在于:

  1. 单一策略 vs. 模块化: Tool-integrated models用一个模型处理所有事情,而agentic systems通过专门化模块分工协作
  2. 可训练 vs. 静态: 前者可通过RL学习优化,后者主要依赖预定义逻辑
  3. 全上下文 vs. 分布式: 前者在完整上下文中推理,后者通过共享内存在模块间传递信息

2. Tool-integrated Reasoning Models的优缺点及Search-R1案例

2.1 Tool-integrated Reasoning Models的优势

2.1.1 端到端可训练性

Tool-integrated reasoning models的最大优势在于端到端的可训练性。通过将可验证的结果奖励扩展到强化学习框架,这些模型能够学习"何时"以及"如何"调用工具,而无需依赖手工设计的规则或启发式方法。

形式化地,优化目标可表示为:

\[ \max \mathbb{E}[R(q,o)] - \beta·D_{KL}(\pi_{\theta} || \pi_{ref}) \]

其中 \(R(q,o)\) 是基于结果的奖励,\(\pi_{ref}\) 是参考模型以防止策略崩溃, \(\beta\) 控制KL正则化强度。

2.1.2 统一的推理框架

在单一上下文中交织思考和工具调用提供了统一的推理框架。模型可以:

  • 在同一个推理链中自然地切换思考和工具使用
  • 避免模块间通信和协调的复杂性
  • 保持完整的上下文信息,便于理解和调试

2.1.3 特定领域的优秀表现

实验表明,在单工具或领域特定场景下,tool-integrated models表现出色:

  • 代码执行工具用于数学问题求解(如ToRL, TIR)
  • 网页搜索工具用于知识密集型问答(如Search-R1, ReSearch)
  • 在各自聚焦的领域,这些模型建立了有竞争力的性能基线

2.2 Search-R1: 代表性的Tool-integrated Reasoning Model

Search-R1 是一个典型的 tool-integrated reasoning model,通过强化学习训练 LLMs 进行推理并利用搜索引擎。它展示了在网页搜索场景下的优秀表现,但也体现了这类模型在扩展性和泛化能力方面的局限。

详细介绍: Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

2.3 Tool-integrated Reasoning Models的根本局限

2.3.1 扩展性挑战(Scalability Issues)

随着以下因素增长,训练变得越来越不稳定:

  1. 时间跨度(Horizon)延长: 长序列推理中的credit assignment问题加剧
  2. 工具种类增多: 单一策略难以掌握多种工具的使用模式
  3. 环境动态变化: 工具反馈导致的状态分布偏移

实验证据显示,Search-R1在非搜索任务上性能下降显著:

  • 数学推理(AIME24): 仅10.0% (vs. ToRL的20.0%)
  • 这表明专门化带来的代价——在特定工具上的优化牺牲了跨领域能力

2.3.2 泛化能力不足

Tool-integrated models在跨领域泛化方面存在脆弱性:

  • 搜索增强模型(Search-R1, ReSearch)在数学任务上表现平平
  • 代码增强模型(TIR, ToRL)在搜索任务上缺乏优势
  • 单一整体策略无法同时精通多种工具类型

这种局限源于:

  1. 训练数据的领域偏向
  2. 单一策略容量的限制
  3. 工具使用模式的冲突(如何时搜索 vs. 何时编码)

2.3.3 长Horizon的Credit Assignment困难

在多步推理中,将最终奖励归因到具体的中间决策极具挑战性:

问题示例:

步骤1: 发起搜索查询A -> 结果Ra
步骤2: 基于Ra推理 -> 中间结论C
步骤3: 发起搜索查询B -> 结果Rb  
步骤4: 综合C和Rb -> 最终答案(错误)

难点: 错误是由于查询A不当、推理C有误,还是查询B的问题?

现有方法的局限:

  • 轨迹级奖励: 只有最终成功/失败信号,无法精确归因
  • 启发式中间奖励: 容易引入偏差,且难以大规模设计
  • 结果: 训练不稳定,推理时的决策质量不可靠

这凸显了单一策略在复杂工具使用场景中的脆弱性

2.4 小结

Tool-integrated reasoning models在特定领域证明了RL驱动工具学习的价值,但其单一整体策略的范式在面对多样化工具、长时间规划和跨领域任务时显示出根本性局限。这为可训练的模块化智能体系统指明了演进方向。


3. Trainable Agentic Systems: 融合两种范式的优势

3.1 传统Agentic Systems的困境

虽然agentic systems通过模块化提供了灵活性,但大多数系统保持训练无关(training-free):

  • 依赖手工设计的逻辑或提示策略
  • 模块间协调由静态规则控制
  • 无法从经验中学习改进协作策略

关键问题: 手工逻辑无法可靠捕获:

  • 模块何时以及如何协作
  • 如何适应动态演化的工具输出
  • 如何从早期错误中恢复

一些工作尝试通过离线训练(如监督微调或偏好优化)改进关键模块,但这些方法:

  • 与实时动态解耦: 在静态数据集上训练,无法反映真实交互
  • 学习信号弱: 难以从下游成功/失败中学习
  • 稀疏奖励下低效: 无法有效处理长horizon的credit assignment

结果:传统agentic systems在动态环境中表现出脆弱的适应性低效的协作

3.2 Trainable Agentic Systems的核心理念

核心思想: 在保留模块化架构优势的同时,通过在线强化学习直接优化关键模块。

设计原则:

  1. 模块化架构: 专门化的模块(如planner, executor, verifier)各司其职
  2. 在线优化(In-the-flow): 在真实的多轮交互循环中训练策略
  3. 端到端学习: 从最终结果反馈中学习改进协作策略

这种范式试图回答:

如何让agentic systems既灵活又可学习?既模块化又协调高效?

3.3 AgentFlow: Trainable Agentic Systems的实践

AgentFlow 是 trainable agentic systems 的代表性工作,展示了如何通过在线强化学习优化模块化 agent 系统。它在保持模块化架构优势的同时,实现了端到端的学习和优化。

详细介绍: IN-THE-FLOW AGENTIC SYSTEM OPTIMIZATION FOR EFFECTIVE PLANNING AND TOOL USE


参考资源


最后更新: January 23, 2026 17:52:58
创建日期: January 23, 2026 15:18:31