https://mp.weixin.qq.com/s/1yTfOpmwuzK1sNA6pU2OeQ
1. 强化学习的基本迭代架构 —— Actor-Critic(AC)架构
- 中文翻译及理解 :很多中文书籍将 AC 架构翻译为 “演员 - 评论家” 架构,但作者认为这种翻译降低了美感,而更倾向于 “知行互动” 架构这一翻译。“知” 代表 Critic,负责对行动进行评价和指导;“行” 是 Actor,根据认知结果进行改进,“互动” 则体现了算法不断迭代的特性。
2. AC 架构中 Critic 的作用
- 算法稳定性问题 :强化学习(RL)相比监督学习(SL)更难稳定,因为 RL 处理的是动态系统的最优控制问题,而 SL 处理的是静态优化问题。动态问题本身更复杂,且 RL 的数据是非稳态的,环境 - 代理(Env-agent)交互机制的数据采集量少,导致梯度计算的方差更大,容易偏离预期目标,使算法跑飞。
- Critic 的功能 :Critic 通过使用 State - value function(状态值函数)或者 Action - value function(动作值函数)来稳定策略梯度的计算过程。更高级的算法会采用 Advantage Function(优势函数),也就是加上了 Baseline(基准线),进一步增加梯度计算的稳定性,这也是 AC 算法通常优于 REINFORCE 算法的原因之一。
3. GRPO 算法的特点及设计思想
- 未使用 Critic 的原因 :GRPO 用于训练大模型(1000 亿级别的参数规模),如果采用 “知行互动” 架构,就需要存储两个大模型 —— Critic Network 和 Actor Network,这对存储要求极高。为节约存储,GRPO 去掉了 Critic Network,改用在线估计 Advantage function(优势函数)的算法,以 “时间(算力)” 换 “空间(存储)”,这是 GRPO 的设计思想。
- 与 PPO 算法的对比 :OpenAI 提出的 PPO 算法是 GRPO 的基础算法,其值函数通常是一个与策略模型大小相当的模型,这带来了显著的内存和计算负担。而 OpenAI 不缺算力和存储资源,所以即使 PPO 算法设计存在一些问题,仍能正常使用。相比之下,国内不少大模型团队简单模仿 PPO 算法,却忽略了自身与 OpenAI 在资源上的差异,选择了次优的技术路径。
4. GRPO 算法的局限性及适用场景
- 局限性 :从原理上看,GRPO 算法并非完美,和 PPO 相比稳定性相当,存在 “稳定性” 缺陷。但 DeepSeek 能较好地使用 GRPO,是因为其数据量足够多,多到可以 “完美” 地避开 GRPO 的稳定性缺陷。每次计算 Policy Gradient(策略梯度)时,只要 Batch(批次)数据足够多,就能有效降低 Policy Gradient 的方差,从而获得比较稳定的迭代。
- 适用场景 :对于高校科研团队以及中小规模的 RL 训练(约百万或千万级别参数规模),GRPO 并非好的选择,尤其是当每次使用的数据批量比较小的时候,其稳定性缺陷将是致命的。在这样的场景下,建议优先选择带有 Critic 的强化学习算法。