跳转至

ZP's docs

llm强化学习算法收敛性分析

ZP's docs

Home
运筹与优化
运筹与优化
- 精确式算法
  精确式算法
- 元启发式算法
  元启发式算法
  - ALNS
- Project:Cutting stock problem
  Project:Cutting stock problem
- Project:2DRP
  Project:2DRP
- Project:3DBP
  Project:3DBP
- Project:VRP
  Project:VRP
  - CVRP
- Project:FJSP
  Project:FJSP
ML
ML
- Supervised Learning
  Supervised Learning
  - Tree
DL
DL
- Multilayer Perceptrons
- Sigmoid Neurons
- Feedforward Neural Networks and Backpropagation
- NN Optimizer
- Regularization
- Neural Network Training Tips
- Batch Normalization 详解
- CNN
- RNN
- LSTM and GRU
- 关于激活函数
- Encoder Decoder models and Attention
- Transformer
- Nav Auto Test
- GNN
  GNN
- Paper Reading
  Paper Reading
- Project:NLP
  Project:NLP
  - NNLM
- Project:Forecasting
  Project:Forecasting
- Project:Customer&Marketing
  Project:Customer&Marketing
RL
RL
- MDPs
- BBO
- Bellman Equation
- Policy Iteration and Value Iteration
- Monte Carlo Methods
- TD Learning:Sarsa, Q-learning
- Policy Gradient:REINFORCE
- Project:Order Dispatching
  Project:Order Dispatching
  - None
- Project:Pricing Optimization
  Project:Pricing Optimization
  - None
LEETCODE
LEETCODE
- 动态规划
  动态规划
- DFS和BFS
  DFS和BFS
- 最短路
  最短路
- 二叉树
  二叉树
- 回溯
  回溯
- 滑动窗口
  滑动窗口
- 双指针
  双指针
- 二分算法
  二分算法
- 链表
  链表
- 单调栈与单调队列
  单调栈与单调队列
  - None
- 常用数据结构
  常用数据结构
- 位运算
  位运算
- 计算几何
  计算几何
- 刷题思路记录
  刷题思路记录
- HOT100快速复习
  HOT100快速复习
- 机考实战
  机考实战
大模型技术学习
大模型技术学习
- Agentic-RL
  Agentic-RL
- Agent
  Agent
  - Pi Practice Record
  - OpenClaw使用流程
- Rag
  Rag
- RL
  RL
- Tech Report
  Tech Report
  - Tech Report

llm强化学习算法收敛性分析¶

约 14 个字预计阅读时间不到 1 分钟

PPO¶

GRPO¶

最后更新: February 25, 2026 14:44:20
创建日期: January 23, 2026 15:18:31