为什么GRPO容易出现reward

assumeengage 2025 年5 月 13 日 13:12 1

https://mp.weixin.qq.com/s/1yTfOpmwuzK1sNA6pU2OeQ

1. 强化学习的基本迭代架构 —— Actor-Critic（AC）架构

中文翻译及理解 ：很多中文书籍将 AC 架构翻译为 “演员 - 评论家” 架构，但作者认为这种翻译降低了美感，而更倾向于 “知行互动” 架构这一翻译。“知” 代表 Critic，负责对行动进行评价和指导；“行” 是 Actor，根据认知结果进行改进，“互动” 则体现了算法不断迭代的特性。

2. AC 架构中 Critic 的作用

算法稳定性问题 ：强化学习（RL）相比监督学习（SL）更难稳定，因为 RL 处理的是动态系统的最优控制问题，而 SL 处理的是静态优化问题。动态问题本身更复杂，且 RL 的数据是非稳态的，环境 - 代理（Env-agent）交互机制的数据采集量少，导致梯度计算的方差更大，容易偏离预期目标，使算法跑飞。
Critic 的功能 ：Critic 通过使用 State - value function（状态值函数）或者 Action - value function（动作值函数）来稳定策略梯度的计算过程。更高级的算法会采用 Advantage Function（优势函数），也就是加上了 Baseline（基准线），进一步增加梯度计算的稳定性，这也是 AC 算法通常优于 REINFORCE 算法的原因之一。

3. GRPO 算法的特点及设计思想

未使用 Critic 的原因 ：GRPO 用于训练大模型（1000 亿级别的参数规模），如果采用 “知行互动” 架构，就需要存储两个大模型 —— Critic Network 和 Actor Network，这对存储要求极高。为节约存储，GRPO 去掉了 Critic Network，改用在线估计 Advantage function（优势函数）的算法，以 “时间（算力）” 换 “空间（存储）”，这是 GRPO 的设计思想。
与 PPO 算法的对比 ：OpenAI 提出的 PPO 算法是 GRPO 的基础算法，其值函数通常是一个与策略模型大小相当的模型，这带来了显著的内存和计算负担。而 OpenAI 不缺算力和存储资源，所以即使 PPO 算法设计存在一些问题，仍能正常使用。相比之下，国内不少大模型团队简单模仿 PPO 算法，却忽略了自身与 OpenAI 在资源上的差异，选择了次优的技术路径。

4. GRPO 算法的局限性及适用场景

局限性 ：从原理上看，GRPO 算法并非完美，和 PPO 相比稳定性相当，存在 “稳定性” 缺陷。但 DeepSeek 能较好地使用 GRPO，是因为其数据量足够多，多到可以 “完美” 地避开 GRPO 的稳定性缺陷。每次计算 Policy Gradient（策略梯度）时，只要 Batch（批次）数据足够多，就能有效降低 Policy Gradient 的方差，从而获得比较稳定的迭代。
适用场景 ：对于高校科研团队以及中小规模的 RL 训练（约百万或千万级别参数规模），GRPO 并非好的选择，尤其是当每次使用的数据批量比较小的时候，其稳定性缺陷将是致命的。在这样的场景下，建议优先选择带有 Critic 的强化学习算法。

1 个赞

IcyFeather 2025 年5 月 17 日 08:20 2

协会也开始研究这个了吗