Agentic-RL¶
约 214 个字 预计阅读时间 1 分钟
本章节探讨 Agentic 强化学习在大语言模型中的应用,包括理论动机、具体实现和代表性工作。
内容导航¶
绪论¶
探讨 Tool-integrated Reasoning Models 与 Agentic Systems 的定义、差异和发展动机。深入分析两种范式的优势与局限,以及为什么需要 Trainable Agentic Systems。
Search-R1¶
Search-R1 是一个典型的 tool-integrated reasoning model,通过强化学习训练 LLMs 进行推理并利用搜索引擎。展示了在网页搜索场景下的优秀表现,同时也体现了这类模型在扩展性和泛化能力方面的局限。
AgentFlow¶
AgentFlow 是 trainable agentic systems 的代表性工作,展示了如何通过在线强化学习优化模块化 agent 系统。在保持模块化架构优势的同时,实现了端到端的学习和优化。
最后更新:
January 23, 2026 17:17:13
创建日期: May 26, 2025 20:56:12
创建日期: May 26, 2025 20:56:12